Ad verba per numeros

Artículos
Tuesday, October 30, 2007, 08:09 AM
Vía Geeking with Greg llego a una interesante charla de Yury Lifshits acerca de la búsqueda de elementos similares a un item de partida (similarity search).

Una de las referencias que más me ha llamado la atención es un artículo de Hoffmann, Lifshits y Nowotka (2007) en el cual describen el Magic Level Theorem que establece cuales son las probabilidades respectivas de: (1) la existencia de al menos un documento en la base de datos que contenga alguno de los términos de la consulta (any match) y (2) la existencia de al menos un documento que contenga un número determinado de los "mejores" términos de la consulta (prefix match).

Es preciso señalar que dicho artículo supone que tanto los documentos como las consultas se construyen tomando términos de manera independiente y con una probabilidad acorde a una distribución de Zipf. Esto resulta muy razonable si tanto las consultas como los documentos son textos de naturaleza similar; sin embargo, si las consultas son textos muy cortos (estoy pensando en el contexto de los buscadores Web) es, tal vez, una simplificación arriesgada (aunque podría estudiarse).

Sin, en principio, relación con el anterior también me han llegado dos referencias a las que aún no he podido echar más que un vistazo rápido pero que tienen buena pinta:

Globerson, A. et al. 2007. "Euclidean Embedding of Co-occurrence Data", Journal of Machine Learning Research 8 (2007), pp. 2265-2295

Lebanon, G. et al. 2007. "The Locally Weighted Bag of Words Framework for Document Representation", Journal of Machine Learning Research 8 (2007) pp. 2405-2441


Next