Ad verba per numeros
En la anterior hoja de ruta os pedía que implementarais un prototipo para separar un texto en sentencias y frases y, después, calcular la frecuencia absoluta de los n-gramas que apareciesen en el mismo.Si recordáis los artículos que habéis leído lo que nos interesa no es la frecuencia absoluta, ni siquiera la relativa, sino la probabilidad de que aparezca cada n-grama. Para calcular, en realidad estimar, dicha probabilidad debéis en primer lugar calcular la frecuencia relativa (eso es fácil) y luego aplicar una técnica de smoothing para estimar la probabilidad de cada n-grama. Existen varias técnicas de suavizado, vosotros vais a utilizar Good-Turing que no es la mejor pero os resultará relativamente sencilla de entender y utilizar. Recursos que os serán de utilidad:
Next
- GoodTuring Frequency Estimation por Geoffrey Sampson
- GoodTuring Frequency Estimation Without Tears por Gale y Sampson
- Simple Good-Turing estimation por David Elworthy
- Código en C++
Next