Ad verba per numeros

Most Recent Entries

Archives

2023
- March
  - Uso de medios sociales por parte del profesorado universitario (2023)
    03/22/23
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Segmentación en pasajes) Hoja de ruta (Episodio II)

Segmentación en pasajes, Hojas de ruta
Wednesday, April 4, 2007, 03:36 PM

Algunos de vosotros ya habéis terminado el trabajo correspondiente al Episodio I de esta hoja de ruta así que es momento de daros material para seguir trabajando.

Ahora mismo os toca empezar a implementar algo, un prototipo del que tal vez podáis conservar algo o quizás terminéis por tirarlo, eso no importa, lo que cuenta es lo que aprenderéis implementándolo.

Dicho prototipo recibirá un texto (muy probablemente codificado en UTF-8) y debe hacer dos cosas únicamente: (1) segmentarlo en frases y sentencias y (2) calcular la frecuencia absoluta de cada n-grama de caracteres (el tamaño de los n-gramas sería configurable en línea de órdenes).

Doy por hecho que utilizaréis Java, así que para el primer paso podéis echarle un ojo a este código y utilizar todo aquello que os ayude a resolver el punto 1. Por el momento no es innecesario que os metáis en mayores profundidades con el resto de código de blindLight pues en este proyecto vamos a introducir algunos cambios.

Como de costumbre comentad en el blog vuestros avances/problemas/dudas.

(Continuará...)

Back Next