Ad verba per numeros

Identificación de idioma, Servicios y Utilidades
Wednesday, February 14, 2007, 10:31 AM
En estos momentos varios de vosotros os enfrentáis a la tarea de identificar el idioma y el juego de caracteres de un texto desconocido. Para ello hemos optado por varios enfoques distintos: (1) utilizar un único documento de muestra para todos los idiomas, (2) utilizar un único documento de muestra para cada idioma y (3) utilizar varios documentos de muestra para cada idioma.

En la primera opción el documento debe ser exactamente igual para todos los idiomas y se está utilizando la "Declaración Universal de los Derechos Humanos" puesto que es uno de los documentos (cortos) con más traducciones. En los otros dos casos las posibilidades de elección son más amplias y, probablemente, os decantéis por textos periodísticos.

El problema fundamental, una vez obtenidos los textos, es la necesidad de convertirlos a las distintos códigos de caracteres válidos para un idioma dado.

Por ejemplo, esta página que estáis viendo sigue la norma ISO-8859-1, conocida también como Latin-1, que se emplea para representar idiomas de Europa occidental, América y gran parte de África. Sin embargo, este mismo texto podría emplear cualquiera de estas otras codificaciones: CP850, Windows-1252, x-mac-roman o UTF-8. Eso significa que si este texto se fuese a usar como muestra para un identificador habría que convertirlo desde su formato original al resto y esto mismo habría que hacerlo para el resto de documentos, idiomas y codificaciones...

Jorge es uno de los alumnos que está trabajando en este tema y ya se ha encontrado con que el número de conversiones a realizar es elevado así que he buscado alternativas para automatizar ese proceso en la medida de lo posible. La opción más adecuada que he encontrado es emplear iconv que dispone de versión Windows. Mi sugerencia es obtener en primer lugar los documentos para cada idioma, después convertirlos en caso necesario a UTF-8 y, por último, mediante un script realizar todas las conversiones necesarias para cada idioma.



Back Next