Ad verba per numeros

Segmentación en pasajes, Hojas de ruta
Wednesday, April 4, 2007, 03:36 PM
Algunos de vosotros ya habéis terminado el trabajo correspondiente al Episodio I de esta hoja de ruta así que es momento de daros material para seguir trabajando.

Ahora mismo os toca empezar a implementar algo, un prototipo del que tal vez podáis conservar algo o quizás terminéis por tirarlo, eso no importa, lo que cuenta es lo que aprenderéis implementándolo.

Dicho prototipo recibirá un texto (muy probablemente codificado en UTF-8) y debe hacer dos cosas únicamente: (1) segmentarlo en frases y sentencias y (2) calcular la frecuencia absoluta de cada n-grama de caracteres (el tamaño de los n-gramas sería configurable en línea de órdenes).

Doy por hecho que utilizaréis Java, así que para el primer paso podéis echarle un ojo a este código y utilizar todo aquello que os ayude a resolver el punto 1. Por el momento no es innecesario que os metáis en mayores profundidades con el resto de código de blindLight pues en este proyecto vamos a introducir algunos cambios.

Como de costumbre comentad en el blog vuestros avances/problemas/dudas.

(Continuará...)



Back Next