Ad verba per numeros
Técnicas PLN/NLP
Thursday, May 17, 2007, 07:09 PM
En muchas aplicaciones PLN es necesario separar un texto en sentencias. Seguramente muchos de vosotros pensaréis que es una tarea trivial. Tan sólo hay que "trocear" el texto allí donde se encuentre un separador de sentencia; como el punto, por ejemplo. Sin embargo, hay ocasiones en que esto no resulta tan sencillo y para muestra, un botón:Thursday, May 17, 2007, 07:09 PM
Google busca másEn el texto anterior hay cuatro sentencias, las dos primeras no terminan en punto, la tercera tiene un punto que no es separador de sentencia y la última tiene nada menos que cuatro puntos...Así pues el asunto no es trivial y, como ya dije, es un problema recurrente por lo que varios estudiantes pasados y presentes se han enfrentado con él. A modo de recopilación pongo aquí enlaces a distintas soluciones que se han o están empleando en distintos proyectos:
Estrena nueva 'home' que permite buscar directamente en todos sus motores
Nueva página principal de Google.com.
El popular buscador ha trasladado a la parte superior izquierda de su página principal clásica las opciones de búsqueda (Web, imágenes, vídeos, noticias, mapas, correo, etc...).
- En Java utilizando
BreakIterator
. - También en Java aprovechando el Sentence Splitter de JavaRAP.
- En C# empleando el objeto
EnglishMaximumEntropyTokenizer
EnglishMaximumEntropySentenceDetector
de Richard Northedge.
Back Next