Ad verba per numeros
Identificación de idioma
Monday, May 7, 2007, 08:50 AM
David ya ha terminado de codificar los algoritmos necesarios para convertir los textos de "entrenamiento" y de muestra en vectores de n-gramas así como las distintas medidas de similitud por lo que ya puede pasar a la siguiente fase.En su caso es relativamente sencillo puesto que sólo hay un texto de entramiento por idioma y codificación; en consecuencia, cada texto desconocido debe compararse con todos los textos de entrenamiento y, por el momento, retornarse como resultado una lista de idiomas-codificaciones junto con la similitud, es decir, algo similar a esta figura:Monday, May 7, 2007, 08:50 AM
zh-Hans-GB 0.9854Por supuesto, el servicio deberá ofrecer las distintas medidas implementadas; más adelante, se determinará cuál proporciona mejores resultados y se ofrecerá esa como método por defecto.(Continuará...)
zh-Hant-HZ 0.9453
ja-ShiftJIS 0.7433
...
Back Next