Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
  - (�ltima hora) Eva ha defendido hoy su proyecto
    06/27/07
  - (M�ster IW) Feeback expl�cito e impl�cito
    06/12/07
  - (M�ster IW) Applications of Query Mining
    06/12/07
  - (M�ster IW) C�lculo de PageRank
    06/11/07
  - (Off-topic) Anuncios y Google
    06/09/07
  - (PLN) T�cnicas de suavizado
    06/01/07
  - (Segmentaci�n en pasajes) Hoja de ruta (Ep. III)
    06/01/07
- May
- April
- March
- February
- January
2006
- December

(Segmentación en pasajes) Hoja de ruta (Ep. III)

Segmentación en pasajes, Hojas de ruta
Friday, June 1, 2007, 07:18 AM

En la anterior hoja de ruta os pedía que implementarais un prototipo para separar un texto en sentencias y frases y, después, calcular la frecuencia absoluta de los n-gramas que apareciesen en el mismo.

Si recordáis los artículos que habéis leído lo que nos interesa no es la frecuencia absoluta, ni siquiera la relativa, sino la probabilidad de que aparezca cada n-grama. Para calcular, en realidad estimar, dicha probabilidad debéis en primer lugar calcular la frecuencia relativa (eso es fácil) y luego aplicar una técnica de smoothing para estimar la probabilidad de cada n-grama.

Existen varias técnicas de suavizado, vosotros vais a utilizar Good-Turing que no es la mejor pero os resultará relativamente sencilla de entender y utilizar. Recursos que os serán de utilidad:

GoodTuring Frequency Estimation por Geoffrey Sampson
GoodTuring Frequency Estimation Without Tears por Gale y Sampson
Simple Good-Turing estimation por David Elworthy
Código en C++

En resumen, esta hoja de ruta es muy simple: modificar el prototipo actual para calcular la probabilidad de los n-gramas de caracteres del texto.

(Continuará...)