Ad verba per numeros
Si se ha completado la última hoja de ruta debería disponerse de código (incluyo el uso de TextTiling) para hacer lo siguiente:
Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de pasajes cualesquiera de un conjunto de documentos dados (un valor real comprendido entre 0 y 1).
Next
- Subir varios documentos a un directorio.
- Segmentar cada texto en pasajes (mediante TextTiling).
- Calcular la significatividad de cada n-grama del texto completo de todos los documentos con varios estadísticos.
- Asignar a cada pasaje obtenido con TextTiling un vector de n-gramas con sus pesos. Básicamente consistiría en recorrer el texto del pasaje, obtener los n-gramas que aparecen en él y luego anotar el peso que dichos n-gramas tienen en base a lo que se hizo en la fase anterior.
- Implementar una medida de similitud basada en dichos vectores de n-gramas. Dicha medida nos permitirá determinar qué pasajes se parecen más y, en consecuencia, se utilizarán como "piezas intercambiables".
Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de pasajes cualesquiera de un conjunto de documentos dados (un valor real comprendido entre 0 y 1).
Next