Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
  - (Art�culo) B�squeda de im�genes en Google
    04/30/08
  - (Ultima hora) WikiXMLDB
    04/24/08
  - (Off-topic) Presentaciones
    04/22/08
  - Hadoop Summit and Data-Intensive Computing Symposium: Videos y transparencias
    04/21/08
  - (Visualizing Picasso) Ideas interesantes para el interfaz
    04/16/08
  - Open Calais
    04/16/08
  - Ana ley� su proyecto
    04/16/08
  - Google AJAX Language API
    04/12/08
  - Recursos muy interesantes pero poco tiempo...
    04/11/08
  - Enlaces para David
    04/11/08
  - (Wikipedia+Wordnet) Hoja de ruta (Episodio I)
    04/11/08
  - Enriquecimiento de categor�as de Wikipedia con informaci�n de Wordnet para mejorar el filtrado de art�culos
    04/11/08
  - (Integraci�n de documentos) Hoja de ruta (Episodio V)
    04/10/08
  - Un art�culo relativamente antiguo pero interesante
    04/09/08
  - (Datos tur�sticos) M�s sobre geolocalizaci�n
    04/08/08
  - (Segmentaci�n en pasajes) Hoja de ruta (Ep. V)
    04/07/08
  - El Catecismo de Heilmeier
    04/07/08
  - (Limpieza de p�ginas web) Hoja de ruta (Episodio II)
    04/07/08
  - (Visualizing Picasso) Prototipado en papel
    04/07/08
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Segmentación en pasajes) Hoja de ruta (Ep. V)

Segmentación en pasajes, Hojas de ruta
Monday, April 7, 2008, 05:06 PM

Una vez se han implementado los distintos estadísticos de ponderación que mencionaba en la entrada anterior deberíais disponer de un prototipo que recibe texto plano, lo separa en sentencias y frases y calcula el "peso" de cada n-grama.

Ahora habría que construir para cada sentencia un vector formado por los n-gramas de dicha sentencia y sus correspondientes pesos. También serán necesarios uno o más métodos para comparar dichos vectores. Para realizar esta comparación deberéis implementar las medidas de similitud que se describen entre las páginas 63 y 67 de este documento.

Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de sentencias cualesquiera de un texto dado (un valor real comprendido entre 0 y 1).

Back Next