Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
  - WWW 2009 e-Prints available
    04/23/09
  - Papers from SIGIR'09 that I want to read...
    04/22/09
  - Interesting resource: WordSimilarity-353 Test Collection
    04/21/09
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Segmentación en pasajes) Hoja de ruta (Ep. V)

Segmentación en pasajes, Hojas de ruta
Monday, April 7, 2008, 05:06 PM

Una vez se han implementado los distintos estadísticos de ponderación que mencionaba en la entrada anterior deberíais disponer de un prototipo que recibe texto plano, lo separa en sentencias y frases y calcula el "peso" de cada n-grama.

Ahora habría que construir para cada sentencia un vector formado por los n-gramas de dicha sentencia y sus correspondientes pesos. También serán necesarios uno o más métodos para comparar dichos vectores. Para realizar esta comparación deberéis implementar las medidas de similitud que se describen entre las páginas 63 y 67 de este documento.

Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de sentencias cualesquiera de un texto dado (un valor real comprendido entre 0 y 1).