Recuperación de información y minería de textos
Si has leído mi "bio" en la portada habrás visto que mi área de interés fundamental es la recuperación de información en la Web aunque mi investigación ha ido más orientada a la minería de textos, fundamentalmente en medios sociales.
A lo largo de los años he impartido docencia en varias asignaturas donde esos intereses y experiencia han permeado: en las relativas a Web Semántica del máster en Ingeniería Web desde sus inicios, en Repositorios de Información desde el curso 2017/18 y en Sistemas de Información para la Web desde el curso 2018/19.
Los materiales elaborados para esas asignaturas siempre han estado a disposición del alumnado pero creo que ha llegado el momento de hacerlos públicos por si fueran de utilidad para alguien más.
Si he tardado tanto en hacerlo ha sido, fundamentalmente, por ser tan solo un "pobrecito hablador" muy consciente de que estos materiales adolecen de muchas debilidades y seguramente están trufados de errores de diverso calado.
Con todo y con eso creo que es bueno liberar lo que poco que uno sabe y ofrecerlo, como dicen los angloparlantes, as is.
Así pues, antes de embarcarte en el estudio de estos materiales ten en cuenta lo siguiente: (1) se ofrecen los correspondientes al curso 2022/2023 y no me comprometo a mantener actualizada la versión pública con los cambios que haga en las distintas asignaturas; (2) no voy a poder resolver "dudas" ni ofrecer "tutorías". Insisto, as is...
Si detectaras errores del tipo que fuera y/o tuvieras sugerencias, por favor, escribe a [email protected]; no te enviaré un cheque como Donald Knuth pero sí tendrás mi agradecimiento más profundo (aunque inmaterial...)
¡Atención, docentes! Si estos materiales te resultan útiles o quieres (re)utilizarlos en todo o en parte ¡adelante! Sin embargo, te agradecería que pusieras un enlace a esta página y que citases la autoría del material.
Y ahora, ¡al grano! Los materiales corresponden a las tres asignaturas antes mencionadas: parte de una asignatura obligatoria de grado, una asignatura optativa de grado y parte de una asignatura de máster. Sacados de ese contexto pueden entenderse como tres bloques interrelacionados pero independientes y de dificultad y concreción creciente:
- Introducción a la recuperación de información.
- Sistemas de información para la Web.
- Minería de textos para la Web.
Introducción a la recuperación de información
Material impartido dentro de la asignatura de grado "Repositorios de Información" y correspondiente, aproximadamente, a 1 crédito ECTS.
Empieza por aquí si no sabes absolutamente nada sobre recuperación de información pero ya conoces el modelo relacional de bases de datos y entiendes bien las estructuras de datos fundamentales.
Aquí verás, entre otras cosas:
- Motivación y visión general de la RI.
- Modelo conceptual de RI.
- RI vs bases de datos.
- Historia de RI.
- Preprocesamiento de documentos.
- Índices.
- Modelos de recuperación de información (booleano, basados en vectores, probabilísticos)
- Evaluación en RI.
- Temas afines (aprendizaje automático, minería de textos, minería web, Web semántica).
Sistemas de información para la Web
Material correspondiente a la asignatura de grado "Sistemas de Información para la Web" y correspondiente a 6 créditos ECTS. Si ya sabes algo sobre recuperación de información (o has trabajado los materiales anteriores) pero no sabes nada sobre recuperación de información en la Web, Web Semántica, Datos Enlazados ni/o minería de medios sociales esto te interesa...
Materiales teóricos
- Desde Memex a la Web Semántica Visión cronológica del almacenamiento y tratamiento automatizado de información, Internet y la sobrecarga de información, antecedentes de la Web, la Web como sistema RI, directorios y buscadores, la Web como hipertexto, ranking basado en hiperenlaces, otras propuestas para luchar contra la sobrecarga de información, Web Semántica, minería web, la Web como corpus, Web en tiempo real, datos enlazados, la Web tiene sesgos, es adversarial y efímera.
- Web Semántica y datos enlazados (y abiertos) La Web Semántica ha muerto ¡viva la Web Semántica! RDF, datos enlazados, datos enlazados abiertos, SPARQL, grafos de conocimiento.
- Comportamiento malicioso en la Web La Web es un entorno adversarial, medios sociales, oportunidades de la minería de medios sociales, agentes maliciosos (troles, bots y títeres), información errónea y desinformación.
- Límites en la minería de trazas digitales Limitaciones de las trazas digitales, ética en la minería de trazas digitales, problemas ideológicos, fairness, accountability, transparency and ethics.
Bonus track
Hay también un moodboard con recursos diversos que sirven de complemento para los materiales teóricos.
Materiales prácticos
- Introducción a los buscadores web
- Creación de un crawler básico
- Similitud entre textos
- Detección de documentos cuasi-duplicados
- Creación de un índice
- Resolviendo consultas con un índice
- PageRank
- Información semántica (I)
- Información semántica (II)
- Introducción a SPARQL (usando Wikidata)
- Introducción a la minería de textos (usando tuits)
- Gestores de contenidos (p.ej., WordPress)
Minería de textos en la Web
Material impartido dentro de la asignatura de máster "Web Semántica" y correspondiente aproximadamente a 2 créditos ECTS. Si ya sabes sobre recuperación de información, recuperación de información en la Web, Web Semántica y datos enlazados puedes proceder con lo siguiente...
- Materiales teóricos Motivación. Vectorización de textos planos. Tareas dentro de la minería de textos. Distintas fuentes de texto en la Web. Problemas que plantea la explotación de las mismas. Ejemplos ilustrativos de minería de textos en la Web. PLN.
- Materiales prácticos Introducción. Creación de un corpus de noticias sobre cambio climático. Extracción del contenido de las noticias. Creación de un corpus de "control". Separando noticias sobre cambio climático de otras. Entrenamiento de un clasificador de "postura" frente al cambio climático. ¿Son de verdad noticias "negacionistas"? Topic Modeling. Clustering.