Ad verba per numeros

Breves, Miscelánea
Wednesday, February 14, 2007, 03:35 PM
Dos descubrimientos casuales que acabo de hacer: (1) El proyecto CLEANEVAL y (2) BootCaT (Simple Utilities for Bootstrapping Corpora and Terms from the Web).

En sus propias palabras:

CLEANEVAL is a shared task and competitive evaluation on the topic of cleaning arbitrary web pages, with the goal of preparing web data for use as a corpus, for linguistic and language technology research and development.

The perl scripts included in the BootCaT toolkit implement an iterative procedure to bootstrap specialized corpora and terms from the web, requiring only a list of "seeds" (terms that are expected to be typical of the domain of interest) as input.

El primero es un congreso/"competición" similar a DUC, TREC o CLEF que se celebrará por primera vez en agosto de 2007. Una vez finalice será interesante ver qué técnicas son las más adecuadas para limpiar páginas web y, probablemente, surja algún PFC a partir de los artículos más prometedores.

El segundo es un toolkit para obtener de la Web corpora (colecciones de documentos) orientados a un tema concreto y ya tengo una idea bastante clara para un próximo proyecto... Seguiré informando.



Back Next