Skip to the content.

Materiales

Docente

Presentación

El objetivo general de esta materia es brindar un acercamiento a algunas técnicas avanzadas de procesamiento de lenguaje natural para la investigación empírica. Particularmente, se trabajará desde un enfoque conceptual (fundamentos teórico-metodológicos, casos y problemas de aplicación, etc.) y técnico (análisis de algoritmos, herramientas con interfaces gráficas, etc.).

El curso es una introducción práctica al análisis computacional de textos.

Se propone que les asistentes

Programa

Contenidos y materiales

Unidad 4. ¿Cómo vectorizar texto? Episodio 2.

Una introducción a los métodos de word-embeddings (word2vec). La fórmula mágica de word2vec: skip-gram + negative sampling. Uso de embeddings como features para modelos supervisados de clasificación de texto (regresión, árboles, etc.).

Unidad 3. ¿Cómo detectar temas en corpus?

Introducción al modelado de tópicos. Descubrimiento no supervisado de estructura temática en corpus de texto. Latent Dirichlet Allocation (LDA). Intuición general del modelo. Parámetros principales. ¿Cómo seleccionar el k (número de ´tópicos?

Unidad 2. ¿Cómo vectorizar textos? Episodio 1. Contando palabras y extrayendo conclusiones de un corpus.

Bag of Words. Term-frequency matrix: conteos crudos y ponderación TF-IDF. Caso: Análisis de sentimientos sobre un corpus. Relaciones entre palabras, bigramas, n-gramas y correlaciones.

Unidad 1. ¿Cómo hacer de un corpus de texto crudo algo analizable mediante métodos cuantitativos?

Cualitativo y cuantitativo como niveles de estandarización de los datos. Preprocesamiento de texto: stopwords, lemmas y stemming. Concepto general del formato tidytext.