Modulo 4: Laboratorio de datos: web scraping y Procesamiento de Lenguaje Natural
Docente
Presentación
Esta materia se constituye como la última de un trayecto de materias optativas orientado a incorporar a las carreras de la EIDAES un conjunto de materias que permitan realizar a les estudiantes un primer acercamiento al campo disciplinar conocido como “Ciencias Sociales Computacionales”. Por ello, se plantean como una continuación y profundización de la materia Metodologías Cuantitativas. En este sentido, la orientación es correlativa a las materias “Metodología de la Investigación” y “Metodologías Cuantitativas”.
El objetivo general de este cuarto módulo es brindar un acercamiento a algunas técnicas avanzadas de procesamiento de lenguaje natural para la investigación empírica. También se abordarán algunas estrategias de web scraping. Particularmente, se trabajará desde un enfoque conceptual (fundamentos teórico-metodológicos, casos y problemas de aplicación, etc.) y técnico (análisis de algoritmos, herramientas con interfaces gráficas, etc.).
Tanto los contenidos de los ejercicios prácticos como las lecturas más conceptuales giran en torno de una misma temática, que para el segundo semestre de 2023 será el análisis de un corpus textual de letras de dos géneros (rock y tango) de la música popular argentina. Esta focalización en un único tema pretende facilitar la comprensión de métodos y técnicas y, al mismo tiempo, aportar a la formación sustantiva de les estudiantes.
El curso es una introducción práctica al análisis computacional de textos. Se propone que les asistentes logren comprender algunos conceptos metodológicos fundamentales para el preprocesamiento de datos textuales (tokenizacion, lematizacion, stemming, etc.) y representación vectorial clásica de textos (Term-Frequency Matrix, tf-idf, bag of words, n-gramas, etc.); conozcan algunas técnicas de modelado y detección de tópicos; se introduzcan a algunas técnicas modernas de representación vectorial de textos (word embeddings); conozcan algunos fundamentos para la recolección de datos no estructurados de páginas web (web scraping) sean capaces de identificar situaciones de aplicación de estas técnicas en sus propias investigaciones.
Programa
Contenidos y materiales
Clase 9. Taller Trabajo Final Integrador
Clase 8. Clasificación de textos mediante TF-IDF y Word Embeddings
Clase 7. ¿Cómo vectorizar un corpus E.II? Breve introducción a word embeddings
Clase 6. Práctica integradora 1.
Se entrega
Clase 5. ¿Cómo detectar temas en un corpus? Dos técnicas de modelado de tópicos
- Diapositivas
- Explicación - LDA - Notebook
- Explicación - LDA - RMarkdown
- Explicación - STM - Notebook
- Explicación - STM - RMarkdown
- Práctica independiente - Notebook
- Práctica independiente - RMarkdown
Clase 4. ¿Cómo recolectar datos de la web? Web scraping y APIS
- Diapositivas
- Explicación - Scraping - Notebook
- Explicación - Scraping - RMarkdown
- Explicación - APIs - Notebook
- Explicación - APIs - RMarkdown
- Práctica independiente - Notebook
- Práctica independiente - RMarkdown
Clase 3.¿Cómo vectorizar textos? N-gramas, co-ocurrencias, grafos y correlaciones entre palabras.
- Explicación y práctica - Sentiment Analysis - Notebook
- Explicación y práctica - Sentiment Analysis - RMarkdown
Clase 2.¿Cómo vectorizar textos? Contando palabras y extrayendo conclusiones de un corpus. Bag of Words. Term-frequency matrix: conteos crudos y ponderación TF-IDF. Análisis de sentimientos sobre un corpus.
- Diapositivas
- Explicación y práctica - Sentiment Analysis - Notebook
- Explicación y práctica - Sentiment Analysis - RMarkdown
- Explicación y práctica - TFIDF - Notebook
- Explicación y práctica - TFIDF - RMarkdown