Ad verba per numeros
Servicios y Utilidades
Tuesday, March 20, 2007, 02:40 PM
Un problema cuando se quiere extraer un corpus de la Web es que las páginas HTML rara vez están "limpias"; además del texto que nos interesa suele haber publicidad, menús, enlaces relacionados, publicidad, información sobre copyright y, claro está, publicidad. Al proceso de eliminar todo el ruido y quedarse con el texto esencial se le denomina screen scraping.Tania está trabajando en la obtención de un corpus paralelo inglés-japonés a partir de los enlaces que amablemente ofrece John Fry y lleva un tiempo peleándose con este problema. Tuesday, March 20, 2007, 02:40 PM


Back Next