Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
  - (Art�culo) Reputaci�n impl�cita de autores en la Wikipedia
    09/28/07
  - (Integraci�n de documentos) Hoja de ruta (Episodio IV)
    09/19/07
  - (Corpora paralelos) Hoja de ruta (Episodio IV)
    09/18/07
  - (Investigaci�n) C�mo encontrar bibliograf�a
    09/18/07
  - Plantilla para documentaci�n PFC EUITIO
    09/18/07
  - (Hoja de ruta) Hebbian learning (Episodio II)
    09/18/07
  - Comentarios desactivados
    09/15/07
  - Curso Web 2.0
    09/13/07
  - (Utilidades) CouchDb
    09/13/07
  - (Utilidades) Zotero
    09/05/07
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Corpora paralelos) Hoja de ruta (Episodio IV)

Corpora paralelos UE, Hojas de ruta
Tuesday, September 18, 2007, 06:25 PM

En estos momentos ya se debería disponer de un sistema capaz de generar archivos (seguramente XML) que contienen los textos planos procedentes de las notas de prensa. El inconveniente es que en algunas ocasiones las notas no están escritas en el idioma correspondiente (p.ej. algunas notas de prensa pueden estar escritas sólo en castellano y aparecer en todos los idiomas).

Para solucionar esto habría que (1) procesar dichos archivos documento a documento, (2) determinar si el documento está efectivamente escrito en el idioma supuesto y (3) generar un archivo de salida que sólo contuviese los documentos en el idioma correcto.

Para ello pueden utilizarse cualquiera de los siguientes servicios de detección de idioma:

Es preciso señalar que ninguno de estos "servicios" es un servicio web auténtico (REST o SOAP) así que habrá que realizar algo de "ingeniería inversa" para utilizar el que se seleccione finalmente.

Para esta fase recomiendo utilizar algún lenguaje de script (p.ej. PHP, Python o Ruby). Para el procesamiento de los archivos XML habría que utilizar un parser SAX.

Actualización: Algunos enlaces sobre el parsing de XML en distintos lenguajes:

Back Next