Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
  - WWW 2009 e-Prints available
    04/23/09
  - Papers from SIGIR'09 that I want to read...
    04/22/09
  - Interesting resource: WordSimilarity-353 Test Collection
    04/21/09
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Integración de documentos) Hoja de ruta (Episodio V)

Integración de documentos, Hojas de ruta
Thursday, April 10, 2008, 10:06 AM

Si se ha completado la última hoja de ruta debería disponerse de código (incluyo el uso de TextTiling) para hacer lo siguiente:

Subir varios documentos a un directorio.
Segmentar cada texto en pasajes (mediante TextTiling).
Calcular la significatividad de cada n-grama del texto completo de todos los documentos con varios estadísticos.

Ahora lo que habría que hacer son dos cosas:

Asignar a cada pasaje obtenido con TextTiling un vector de n-gramas con sus pesos. Básicamente consistiría en recorrer el texto del pasaje, obtener los n-gramas que aparecen en él y luego anotar el peso que dichos n-gramas tienen en base a lo que se hizo en la fase anterior.
Implementar una medida de similitud basada en dichos vectores de n-gramas. Dicha medida nos permitirá determinar qué pasajes se parecen más y, en consecuencia, se utilizarán como "piezas intercambiables".

Para realizar la comparación de vectores se deben implementar las medidas de similitud que se describen entre las páginas 63 y 67 de este documento.

Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de pasajes cualesquiera de un conjunto de documentos dados (un valor real comprendido entre 0 y 1).