Ad verba per numeros

Miscelánea
Thursday, February 22, 2007, 02:25 PM
El título de esta entrada puede parecer chocante pero demuestra a la perfección los problemas que, a pesar de los enormes avances, aún existen en el campo de la traducción automática.

La siempre útil Wikipedia recoge lo siguiente:

Apparently, arriving at surprising destinations with machine translation is not an altogether recent phenomenon, and may date back to the inception of the software in the 1950s and the 1960s. According to Werner R. Loewenstein's The Touchstone of Life, a language translation machine was experimented with for translating the Bible from English to Spanish. It apparently "did quite quite well until it got to [Matthew] 26:41: 'the spirit is willing but the flesh is weak.' The translation read: 'el aguardiente es agradable pero la carne es insipida' (the liquor is nice but the meat is bland)."

Bien, han pasado sus buenos 40 años... ¿En qué situación estamos ahora mismo? Un poco mejor pero aún lejos de la perfección: tanto Babelfish de Altavista como Google Translate traducen el mismo pasaje como "El alcohol está dispuesto pero la carne es débil". La coincidencia en las traducciones no debe sorprendernos puesto que ambos emplean el mismo software de traducción proporcionado por Systrans.

Ahora bien, Google ofrece algunos idiomas en fase beta para los que parece estar empleando tecnología propia. Sin lugar a dudas uno de los más relevantes es el árabe en el que los resultados son espectaculares (¡atención! Espectaculares, no mágicos).

¿Y dónde está el fuego? Bueno, en realidad no es algo demasiado importante, tan sólo una idea bastante natural: permitir a los usuarios que sugieran mejores traducciones para los idiomas que aún están en beta (obsérvese que la traducción debe ser siempre para una sentencia completa).

Philipp Lenssen supone lo siguiente:

My guess is that Google uses these submissions to either automatically implement some “wisdom of crowds” into their machine translation efforts, or more likely, that they’ll treat this as a kind of bug report with which they can better judge their translation efforts, potentially tweaking their translation code.

Yo personalmente no creo que lo usen para "retocar" el código sino para ampliar su base de sentencias paralelas, en especial, para aquellos textos que usen más los usuarios; después de todo, es un sistema estadístico y será mejor cuanto mayor sea el número de datos.

Actualización (01/03/2007): Google anuncia en su blog la posibilidad de sugerir mejores traducciones. Me quedo con lo siguiente:

We have a system that can learn to translate better if we know where the problems are. In the past, there was no way to tell us about problem translations. Now there is. Next time you see a sentence that makes you go "hmmm," just hover over it to display the original text tooltip and click the "Suggest a better translation" link. Tell us what it should have said, and we'll use your suggestion to improve translation quality in future updates to our service.

También me permito señalar la siguiente pareja de idiomas traducibles: Chinese (Simplified) to/from Chinese (Traditional). ¿Extraño? En absoluto, la explicación en este artículo: "The Pitfalls and Complexities of Chinese to Chinese Conversion"



Back Next