Ad verba per numeros

Integración de documentos, Hojas de ruta
Wednesday, September 19, 2007, 07:27 AM
En estos momentos debería disponerse de un prototipo capaz de recibir varios textos, segmentarlos en pasajes mediante TextTiling y aplicar las primeras fases del algoritmo blindLight al texto completo para determinar las frecuencias relativas de los n-gramas constitutivos del texto original.

Ahora habría que implementar una técnica de estimación de probabilidades a partir de frecuencias relativas como Good-Turing y, posteriormente, implementar una serie de estadísticos que permitirán calcular la "significatividad" de cada n-grama a partir de dichas probabilidades.

  • Para la primera fase (estimación de probabilidades) puede seguirse esta hoja de ruta; aunque pertenece a otro proyecto es totalmente aplicable a éste en este preciso momento.
  • Para la segunda fase (estadísticos basados en probabilidades) se seguirá esta otra hoja de ruta.
Al terminar esta hoja de ruta debería disponerse de un prototipo que recibiría una lista de n-gramas y frecuencias relativas y produciría un listado de n-gramas con sus correspondientes significatividades.

¡Atención! tened en cuenta que además de las frecuencias para los n-gramas de tamaño n también necesitaréis calcular las frecuencias (y en consecuencia probabilidades) de los n-gramas de tamaño inferior que los componen.



Next