

Materiales
Docente
Presentación
El objetivo general de esta materia es brindar un acercamiento a algunas técnicas avanzadas de procesamiento de lenguaje natural para la investigación empírica. Particularmente, se trabajará desde un enfoque conceptual (fundamentos teórico-metodológicos, casos y problemas de aplicación, etc.) y técnico (análisis de algoritmos, herramientas con interfaces gráficas, etc.).
El curso es una introducción práctica al análisis computacional de textos.
Se propone que les asistentes
- logren comprender algunos conceptos metodológicos fundamentales para el preprocesamiento de datos textuales (tokenización, lematización, stemming, etc.) y representación vectorial clásica de textos (Term-Frequency Matrix, tf-idf, bag of words, n-gramas, etc.);
- conozcan algunas técnicas de modelado y detección de tópicos;
- se introduzcan a algunas técnicas modernas de representación vectorial de textos (word embeddings);
- incorporen nociones básicas de la arquitectura Transformer en particular (attention mechanism, positional encoding, etc.)
- se familiaricen con conceptos centrales de prompting (rol, instrucciones, etc.) y algunas técnicas básicas: zero shot, few-shot, chain of thought
- realicen una primera introducción al uso programático de LLMs tanto vía servidores como de forma local
- sean capaces de identificar situaciones de aplicación de estas técnicas en sus propias investigaciones y actividades profesionales
Programa
Contenidos y materiales
Unidad 4. ¿Cómo vectorizar texto? Episodio 2.
Una introducción a los métodos de word-embeddings (word2vec). La fórmula mágica de word2vec: skip-gram + negative sampling. Uso de embeddings como features para modelos supervisados de clasificación de texto (regresión, árboles, etc.).
- Diapositivas - parte 1
- Diapositivas - parte 2
- Explicación y práctica guiada 1 - Notebook
- Práctica independiente 1 - Notebook
- Explicación y práctica guiada 2 - Notebook
Unidad 3. ¿Cómo detectar temas en corpus?
Introducción al modelado de tópicos. Descubrimiento no supervisado de estructura temática en corpus de texto. Latent Dirichlet Allocation (LDA). Intuición general del modelo. Parámetros principales. ¿Cómo seleccionar el k (número de ´tópicos?
- Diapositivas
- Explicación y práctica guiada 1 (sklearn) - Notebook
- Explicación y práctica guiada 2 (gensim) + Práctica independiente - Notebook
Unidad 2. ¿Cómo vectorizar textos? Episodio 1. Contando palabras y extrayendo conclusiones de un corpus.
Bag of Words. Term-frequency matrix: conteos crudos y ponderación TF-IDF. Caso: Análisis de sentimientos sobre un corpus. Relaciones entre palabras, bigramas, n-gramas y correlaciones.
- Diapositivas
- Explicación y práctica guiada 1 - Notebook
- Explicación y práctica guiada 2 - Notebook
- Descargar corpus y datos

Unidad 1. ¿Cómo hacer de un corpus de texto crudo algo analizable mediante métodos cuantitativos?
Cualitativo y cuantitativo como niveles de estandarización de los datos. Preprocesamiento de texto: stopwords, lemmas y stemming. Concepto general del formato tidytext.
- Diapositivas
- Descargar corpus y datos
