Ad verba per numeros

Artículos
Wednesday, February 21, 2007, 03:25 PM
De vez en cuando voy a tratar de comentar algún artículo que me parezca relevante tanto para vosotros como para mí. La intención fundamental de este tipo de entradas no es otra que ir guardando referencias que pueden sernos útiles en el futuro; sin embargo, espero que os puedan servir como muestra para cuando tengáis que citar el trabajo de terceros en vuestra documentación.

Para empezar la "serie" he elegido una publicación bastante reciente:

Dubinko, M., Kumar, R., Magnani, J., Novak, J., Raghavan, P. y Tomkins, A. 2006, "Visualizing tags over time", en Proceedings of the 15th international conference on World Wide Web, pp. 193-202, disponible en <http://www2006.org/programme/item.php?id=25> [21 de febrero de 2007]

En este trabajo Dubinko et al. describen las técnicas desarrolladas para construir una aplicación que genera, en tiempo real, una visualización de la evolución temporal de las etiquetas más "interesantes" de flickr para un período de algo más de un año.

Uno de los aspectos más interesantes del artículo es, precisamente, cómo determinar cuándo un objeto es interesante; en este caso cuándo una etiqueta y, en consecuencia, las imagenes asociadas a la misma son interesantes. Dubinko et al. afirman:

We focus on one particular notion of "interesting" data: the tags during a particular period of time that are most representative for that time period. That is, the tags that show a significantly increased likelihood of occurring inside the time period, compared to outside.

El artículo describe el modo de calcular el "interés" de una etiqueta a partir, como no podía ser de otra forma, del número de veces que una etiqueta se emplea cada día.

Sin embargo, aunque la idea básica es sencilla existe el problema de que el conjunto de datos es enorme (un hecho generalizado en el campo del etiquetado colaborativo y/o buscadores). Los autores señalan que el conjunto de datos abarcaba 472 días y que, en promedio, ¡cada día se empleaban 1,2 millones de etiquetas!

En consecuencia, el algoritmo inicial debe ser modificado, no sólo para facilitar el acceso a la base de etiquetas, sino para precalcular el mayor número posible de datos (recordemos que la aplicación opera en tiempo real).

En resumen, este artículo describe una serie de métodos algorítmicos para calcular el "interés" de las etiquetas empleadas en un entorno colaborativo teniendo en cuenta el caracter cambiante de las mismas a lo largo del tiempo.



Back