Ad verba per numeros

Most Recent Entries

Archives

2023
- March
  - Uso de medios sociales por parte del profesorado universitario (2023)
    03/22/23
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Identificación de idioma) Hoja de ruta (Episodio III)

Identificación de idioma
Monday, May 7, 2007, 08:50 AM

David ya ha terminado de codificar los algoritmos necesarios para convertir los textos de "entrenamiento" y de muestra en vectores de n-gramas así como las distintas medidas de similitud por lo que ya puede pasar a la siguiente fase.

En su caso es relativamente sencillo puesto que sólo hay un texto de entramiento por idioma y codificación; en consecuencia, cada texto desconocido debe compararse con todos los textos de entrenamiento y, por el momento, retornarse como resultado una lista de idiomas-codificaciones junto con la similitud, es decir, algo similar a esta figura:

zh-Hans-GB	0.9854
zh-Hant-HZ	0.9453
ja-ShiftJIS	0.7433
...

Por supuesto, el servicio deberá ofrecer las distintas medidas implementadas; más adelante, se determinará cuál proporciona mejores resultados y se ofrecerá esa como método por defecto.

(Continuará...)

Back Next