Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
  - (Off-topic) Citizendium
    03/29/07
  - (Servicios) GoogleMaps + PHP
    03/29/07
  - (Servicios) Utilizaci�n de Google AJAX Search API desde PHP
    03/28/07
  - (Off-topic) Sindicaci�n v�a SMS con Twitter
    03/28/07
  - (Extensi�n universitaria) C�mo procesar RSS en PHP
    03/27/07
  - (Off-topic) Voluntarios para experimento
    03/24/07
  - (Servicios y utilidades) Dapper: screen scraping f�cil
    03/20/07
  - (Servicios y utilidades) Feedity - conversi�n de HTML en RSS
    03/16/07
  - (Breves) Robot alternativo: HTTrack
    03/15/07
  - (Off-topic) El tocino, la velocidad, la Wikipedia y los juegos de rol
    03/12/07
  - (Breves) Sobre la efectividad de las tagclouds
    03/09/07
  - (Breves) Videos de charlas t�cnicas en Google
    03/09/07
  - (Hype-Buzz) Web 2.0 y WebOS
    03/09/07
  - (Etiquetado colaborativo) Hoja de ruta (Episodio II)
    03/09/07
  - (Miscel�nea) Curso de doctorado sobre Web Sem�ntica
    03/08/07
  - (Integraci�n de documentos) Hoja de ruta (Episodio I)
    03/08/07
  - (Segmentaci�n en pasajes) Hoja de ruta (Episodio I)
    03/08/07
  - (Hoja de ruta) Corpora comparables (Episodio II)
    03/07/07
  - (Breves) Viktor aprende ingl�s...
    03/04/07
  - (�ltima hora) Adjudicaci�n de proyectos fin de carrera
    03/04/07
- February
- January
2006
- December

(Servicios y utilidades) Dapper: screen scraping fácil

Servicios y Utilidades
Tuesday, March 20, 2007, 02:40 PM

Un problema cuando se quiere extraer un corpus de la Web es que las páginas HTML rara vez están "limpias"; además del texto que nos interesa suele haber publicidad, menús, enlaces relacionados, publicidad, información sobre copyright y, claro está, publicidad. Al proceso de eliminar todo el ruido y quedarse con el texto esencial se le denomina screen scraping.

Tania está trabajando en la obtención de un corpus paralelo inglés-japonés a partir de los enlaces que amablemente ofrece John Fry y lleva un tiempo peleándose con este problema.

No obstante, Tania no va a ser la única y muchos de vosotros, ahora o más adelante, os veréis en la tesitura de querer extraer algo de texto plano de una página web atiborrada de ruido. Para esas situaciones os recomiendo Dapper, un sitio en la línea de Feedity sólo que en lugar de ofrecer los enlaces de una página en formato RSS os permite configurar de manera visual un screen scraper que podéis reutilizar sobre varias páginas del mismo sitio.

Naturalmente, no es a prueba de bombas pero facilita mucho las cosas. Lamentablemente no me parece una solución viable para un corpus con más de 35.000 documentos así que habrá que esperar a ver qué nos ofrece CLEANEVAL para disponer de soluciones robustas y escalables.

Back Next