Ad verba per numeros
Una vez hayáis desarrollado el prototipo para separar varios documentos en pasajes empleando JTexttiling ha llegado el momento de comenzar a implementar algunos aspectos de la técnica blindLight que será la que se utilice para comparar entre sí los distintos pasajes a fin de determinar si son o no similares; no obstante, empezaremos poco a poco. Por ahora vuestra misión consistirá en modificar el prototipo para que calcule la frecuencia relativa de los distintos n-gramas que aparecen en el conjunto de textos enviados. Un n-grama no es más que una secuencia correlativa de caracteres pertenecientes a la misma frase; por ejemplo, dada la siguiente sentencia,
Back Next
Tendríamos los siguientes 4-gramas:
Crede quod habes, et habes.
CredNo existirían en cambio
rede
ede_
de_q
e_qu
_quo
quod
uod_
od_h
d_ha
_hab
habe
abes
_et_
et_h
t_ha
bes_
, es_e
ni s_et
puesto que esto supondría saltar entre las frases "Crede quod habes"
y "et habes"
; obsérvese también que los n-gramas pueden contener espacios en blanco pero no signos de puntuación. En resumen, el nuevo prototipo debe hacer lo siguiente:- Recibir varios textos y segmentarlos en pasajes.
- Separar los pasajes en sentencias y frases.
- Determinar los n-gramas que existen en el texto completo (todos los documentos enviados) teniendo en cuenta que los n-gramas pueden "saltar" entre palabras pero no entre frases.
- Calcular su frecuencia absoluta y relativa.
- Producir, por el momento, como salida un listado de n-gramas con sus correspondientes frecuencias absolutas y relativas.
Back Next