Ad verba per numeros

Identificación de idioma, Hojas de ruta
Tuesday, February 20, 2007, 08:28 AM
Varios de vosotros estáis trabajando en el desarrollo de un servicio REST para identificar el idioma de un texto escrito. Si ya habéis terminado el proceso de recopilación de muestras de textos en los idiomas a identificar y obtenido las conversiones a los diferentes juegos de caracteres entonces podéis comenzar a seguir esta hoja de ruta, en caso contrario os recomiendo leer el Episodio I.

Los pasos básicos que deberá seguir el servicio web son los siguientes: (1) recibir un texto escrito en un idioma a identificar, (2) convertirlo en un vector de n-gramas y pesos tal y como prescribe la técnica, (3) compararlo con una serie de vectores correspondientes a textos cuya codificación e idioma son conocidos y (4) asignar como idioma aquel cuyo parecido sea mayor.

Vuestro siguiente objetivo será implementar el segundo paso (mostrado en negrita); es decir, desarrollar el código necesario para a partir de una secuencia de bytes obtener un vector de n-gramas (en este caso de bytes, no de caracteres) con sus correspondientes pesos. Habrá 3 parámetros configurables: (1) el tamaño del n-grama, (2) el estadístico a utilizar para calcular los pesos y (3) la utilización de técnicas de smoothing.

De momento, y antes de comenzar a implementar nada, os recomiendo que leáis esta documentación: Descripción de la técnica blindLight, Categorización de documentos con blindLight, Good-Turing frequency estimation y Good-Turing Smoothing Without Tears.

Como de costumbre id documentando en el wiki al tiempo que váis estudiando. Una vez tengáis más o menos claras las ideas poneos en contacto conmigo de nuevo.

(Continuará...)



Back Next