Materiales

Docente

Presentación

El objetivo general de esta materia es brindar un acercamiento a algunas técnicas avanzadas de procesamiento de lenguaje natural para la investigación empírica. Particularmente, se trabajará desde un enfoque conceptual (fundamentos teórico-metodológicos, casos y problemas de aplicación, etc.) y técnico (análisis de algoritmos, herramientas con interfaces gráficas, etc.).

El curso es una introducción práctica al análisis computacional de textos.

Se propone que les asistentes

logren comprender algunos conceptos metodológicos fundamentales para el preprocesamiento de datos textuales (tokenización, lematización, stemming, etc.) y representación vectorial clásica de textos (Term-Frequency Matrix, tf-idf, bag of words, n-gramas, etc.);
conozcan algunas técnicas de modelado y detección de tópicos;
se introduzcan a algunas técnicas modernas de representación vectorial de textos (word embeddings);
incorporen nociones básicas de la arquitectura Transformer en particular (attention mechanism, positional encoding, etc.)
se familiaricen con conceptos centrales de prompting (rol, instrucciones, etc.) y algunas técnicas básicas: zero shot, few-shot, chain of thought
realicen una primera introducción al uso programático de LLMs tanto vía servidores como de forma local
sean capaces de identificar situaciones de aplicación de estas técnicas en sus propias investigaciones y actividades profesionales

Programa

Programa completo de la materia - 1er. cuatrimestre 2026

Contenidos y materiales

Unidad 4. ¿Cómo vectorizar texto? Episodio 2.

Una introducción a los métodos de word-embeddings (word2vec). La fórmula mágica de word2vec: skip-gram + negative sampling. Uso de embeddings como features para modelos supervisados de clasificación de texto (regresión, árboles, etc.).

Unidad 3. ¿Cómo detectar temas en corpus?

Introducción al modelado de tópicos. Descubrimiento no supervisado de estructura temática en corpus de texto. Latent Dirichlet Allocation (LDA). Intuición general del modelo. Parámetros principales. ¿Cómo seleccionar el k (número de ´tópicos?

Unidad 2. ¿Cómo vectorizar textos? Episodio 1. Contando palabras y extrayendo conclusiones de un corpus.

Bag of Words. Term-frequency matrix: conteos crudos y ponderación TF-IDF. Caso: Análisis de sentimientos sobre un corpus. Relaciones entre palabras, bigramas, n-gramas y correlaciones.

Diapositivas
Explicación y práctica guiada 1 - Notebook
Explicación y práctica guiada 2 - Notebook
Práctica independiente - Notebook
Descargar corpus y datos

Unidad 1. ¿Cómo hacer de un corpus de texto crudo algo analizable mediante métodos cuantitativos?

Cualitativo y cuantitativo como niveles de estandarización de los datos. Preprocesamiento de texto: stopwords, lemmas y stemming. Concepto general del formato tidytext.