Ad verba per numeros

Servicios y Utilidades
Wednesday, April 16, 2008, 02:22 PM
El otro día mencioné Open Calais de Reuters y hoy he tenido tiempo de probarlo. Mi interés en este servicio es doble: por un lado creo que puede resultar útil para extraer las entidades necesarias en el proyecto de Visualizing Picasso y, por otro, me gustaría ver qué aplicaciones comienza a construir la gente al disponer de texto plano con etiquetas semánticas.

La verdad es que es un servicio relativamente sencillo de utilizar, se puede consumir mediante SOAP y también realizando peticiones POST. La respuesta siempre está en formato RDF.

Atención: Hasta donde sé el único idioma que soporta es el inglés. No obstante, el texto tan solo tiene que "parecerse" al inglés lo cual quiere decir que si el texto original se traduce automáticamente a inglés y luego se envía a Calais se obtienen resultados. Naturalmente, dichos resultados serán peores que si el texto original fuese inglés pero menos da una piedra...

La prueba que hice estaba relacionada con el primer punto y en consecuencia tan sólo me interesaba obtener la lista de entidades que el servicio encuentra en un texto dado (al final de la entrada pongo un par de ejemplos). Los resultados son bastante satisfactorios aunque tengo que buscar un rato para compararlos con los que se podrían obtener con LingPipe en versión plain vanilla. De todos modos, como complemento al método que comenté el otro día lo veo bastante práctico.

Aquellos de vosotros que estéis trabajando en el proyecto de Visualizing Picasso y estéis en la fase de detección de entidades pedidme el código fuente.

Actualización: Acabo de conocer la existencia de Open Calais Tags, una clase en PHP que aparentemente hace lo mismo que el juguete del que hablo aquí. Juro/Prometo que no lo sabía (de haberlo sabido no habría tenido que programar el juguete). Aunque mi código sigue estando disponible para el que lo necesite el de Dan Grossman está bastante más limpio :)

Ahora los textos de prueba: este y este otro. Y los resultados:

Array
(
[Organization] => Array
(
[0] => Sloan Foundation
[1] => Jimmy
)

[Company] => Array
(
[0] => BBC
[1] => eBay
)

[Country] => Array
(
[0] => India
)

[URL] => Array
(
[0] => http://news.bbc.co.uk/go/pr/fr/-/2/hi/t ... 347766.stm
)

[Currency] => Array
(
[0] => USD
)

[Person] => Array
(
[0] => Sue Gardner
[1] => Maggie Shiels
)

[City] => Array
(
[0] => San Francisco
[1] => Delhi
)

)

Array
(
[IndustryTerm] => Array
(
[0] => search results
[1] => advertising space-sharing experiment
)

[Company] => Array
(
[0] => Wall Street Journal
[1] => News Corp
[2] => BBC
[3] => AOL
[4] => Time Warner
[5] => the New York Times
[6] => Yahoo
[7] => Microsoft
[8] => Google
)

[URL] => Array
(
[0] => http://news.bbc.co.uk/go/pr/fr/-/2/hi/b ... 339992.stm
)

[Currency] => Array
(
[0] => USD
)

)

Actualización (20/05/2008): Calais Viewer; un recurso útil que ahora ha quedado enterrado en algún lugar del sitio web de Open Calais.

Back Next