Ad verba per numeros
En estos momentos debería disponerse de un prototipo capaz de recibir varios textos, segmentarlos en pasajes mediante TextTiling y aplicar las primeras fases del algoritmo blindLight al texto completo para determinar las frecuencias relativas de los n-gramas constitutivos del texto original.Ahora habría que implementar una técnica de estimación de probabilidades a partir de frecuencias relativas como Good-Turing y, posteriormente, implementar una serie de estadísticos que permitirán calcular la "significatividad" de cada n-grama a partir de dichas probabilidades.
Next
- Para la primera fase (estimación de probabilidades) puede seguirse esta hoja de ruta; aunque pertenece a otro proyecto es totalmente aplicable a éste en este preciso momento.
- Para la segunda fase (estadísticos basados en probabilidades) se seguirá esta otra hoja de ruta.
Next