Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
  - (Art�culo) Reputaci�n impl�cita de autores en la Wikipedia
    09/28/07
  - (Integraci�n de documentos) Hoja de ruta (Episodio IV)
    09/19/07
  - (Corpora paralelos) Hoja de ruta (Episodio IV)
    09/18/07
  - (Investigaci�n) C�mo encontrar bibliograf�a
    09/18/07
  - Plantilla para documentaci�n PFC EUITIO
    09/18/07
  - (Hoja de ruta) Hebbian learning (Episodio II)
    09/18/07
  - Comentarios desactivados
    09/15/07
  - Curso Web 2.0
    09/13/07
  - (Utilidades) CouchDb
    09/13/07
  - (Utilidades) Zotero
    09/05/07
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Integración de documentos) Hoja de ruta (Episodio IV)

Integración de documentos, Hojas de ruta
Wednesday, September 19, 2007, 07:27 AM

En estos momentos debería disponerse de un prototipo capaz de recibir varios textos, segmentarlos en pasajes mediante TextTiling y aplicar las primeras fases del algoritmo blindLight al texto completo para determinar las frecuencias relativas de los n-gramas constitutivos del texto original.

Ahora habría que implementar una técnica de estimación de probabilidades a partir de frecuencias relativas como Good-Turing y, posteriormente, implementar una serie de estadísticos que permitirán calcular la "significatividad" de cada n-grama a partir de dichas probabilidades.

Para la primera fase (estimación de probabilidades) puede seguirse esta hoja de ruta; aunque pertenece a otro proyecto es totalmente aplicable a éste en este preciso momento.
Para la segunda fase (estadísticos basados en probabilidades) se seguirá esta otra hoja de ruta.

Al terminar esta hoja de ruta debería disponerse de un prototipo que recibiría una lista de n-gramas y frecuencias relativas y produciría un listado de n-gramas con sus correspondientes significatividades.

¡Atención! tened en cuenta que además de las frecuencias para los n-gramas de tamaño n también necesitaréis calcular las frecuencias (y en consecuencia probabilidades) de los n-gramas de tamaño inferior que los componen.