Ad verba per numeros
Algunos de vosotros ya habéis terminado de implementar el método de Good-Turing para obtener probabilidades a partir de frecuencias relativas. Para la siguiente tarea deberéis aprovechar/integrar el código desarrollados hasta el momento para implementar un nuevo prototipo que hará lo siguiente:
Back Next
- Recibirá un texto plano.
- Separará el texto anterior en sentencias y éstas en frases.
- Calculará la frecuencia relativa de los n-gramas dentro del texto completo.
- Empleando Good-Turing smoothing estimará las probabilidades para dichos n-gramas.
- Implementará los estadísticos de ponderación que aparecen en la Figura 96 de la página 148 de este documento.
SI
, SCP
, chi2
, Dice
o infogain
).Por el momento la salida será un listado de n-gramas con sus correspondientes pesos.Continuará...Back Next