Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Monday, February 19, 2007, 10:44 AM
Vaya por delante que no hay episodio I de esta hoja de ruta :)

Varios de vosotros estáis trabajando en la generación automática de un corpus paralelo de notas de prensa en los idiomas oficiales de la Unión Europea. Para ello, se va a utilizar el sitio web de la Agencia Europea para la Seguridad y la Salud en el Trabajo, en concreto el archivo de su lista de correo (OSHmail).

Para descargar las páginas se necesitará un robot y la mayor parte de vosotros habéis optado por Nutch. Una vez superados los problemas que plantea el funcionamiento de Nutch en Windows estais listos para pasar a la siguiente fase: utilizar Nutch para descargar de manera automática los documentos del sitio web para los distintos idiomas.

El objetivo de esta fase es estudiar el modo de emplear Nutch para disponer de un sistema que, una vez configurado, y con una atención mínima descargue periódicamente los documentos de OSHmail separándolos en directorios para los distintos idiomas.

Aviso para navegantes: no va a ser tan sencillo como puede parecer en principio puesto que no hay URLs diferentes para los distintos idiomas...

(Continuará...)



Back Next