Ad verba per numeros
Los pasos básicos que deberá seguir el servicio web son los siguientes: (1) recibir un texto escrito en un idioma a identificar, (2) convertirlo en un vector de n-gramas y pesos tal y como prescribe la técnica, (3) compararlo con una serie de vectores correspondientes a textos cuya codificación e idioma son conocidos y (4) asignar como idioma aquel cuyo parecido sea mayor.
Vuestro siguiente objetivo será implementar el segundo paso (mostrado en negrita); es decir, desarrollar el código necesario para a partir de una secuencia de bytes obtener un vector de n-gramas (en este caso de bytes, no de caracteres) con sus correspondientes pesos. Habrá 3 parámetros configurables: (1) el tamaño del n-grama, (2) el estadístico a utilizar para calcular los pesos y (3) la utilización de técnicas de smoothing.
De momento, y antes de comenzar a implementar nada, os recomiendo que leáis esta documentación: Descripción de la técnica blindLight, Categorización de documentos con blindLight, Good-Turing frequency estimation y Good-Turing Smoothing Without Tears.
Como de costumbre id documentando en el wiki al tiempo que váis estudiando. Una vez tengáis más o menos claras las ideas poneos en contacto conmigo de nuevo.
(Continuará...)
Back Next