Trabajo Final Integrador. NLP y Análisis de Discursos Parlamentarios

Introducción

Forman parte de un equipo interdisciplinario de investigación contratado por el Parlamento Europeo. El objetivo de su equipo es analizar los discursos parlamentarios del año 2021 para responder preguntas clave sobre:

Diversidad lingüística y representación: ¿qué tan multilingüe y diverso es el Parlamento y qué sesgos implica analizar solo algunos idiomas?
Temas de debate: ¿cuáles fueron los principales ejes de discusión en el período?
Identidad partidaria en el discurso: ¿hasta qué punto el texto de un discurso permite identificar la filiación política?

Contexto

El trabajo se basa en un dataset de discursos del Parlamento Europeo del año 2021. Se han filtrado discursos en idiomas con poca cantidad de casos y temas poco relevantes.

Cada observación contiene:

TEXTID: id del texto
CODICT: id del texto (código)
DATE: fecha del discurso
TEXT: texto completo del discurso (en varios idiomas)
VOD-START: timestap de inicio del discurso
VOD-END: timestap de finalización del discurso
party_final: orientación ideológica del grupo partidario
politicalGroup: nombre del grupo político
gender: género del/la parlamentario/a
country: país de nacimiento del parlamentario

Referencia para de la base de datos completa: Kocoń et al., 2023

Objetivo

Aplicar las técnicas vistas en clase para procesar y analizar datos textuales a partir de un corpus real.

El trabajo se realizará en grupos hasta 3 estudiantes.

Tareas

Para cada una de las tareas especificadas podrán utilizar cualquiera de las técnicas que cubrimos a lo largo del curso. Podrán (y probablemente deberán) utilizar varias para una misma tarea en alguna forma de “pipeline” o secuencia. Solo por mencionar algunas:

Topic modeling (LDA, NMF)
TF-IDF + clasficación supervisada
Word embeddings + clasificación supervisada
LLMs (zero-shot, few-shot, etc.)
Etcétera

Tarea 1 (obligatoria): Detección de idioma

Implementar un procedimiento para identificar el idioma de cada discurso.
Comparar al menos dos modelos.
Entregar estadísticas: cantidad de discursos detectados en cada idioma.

Algunas preguntas orientadoras

¿Qué modelos o métodos presentan mejores performances para la detección de idiomas?
¿De qué forma pueden llevar adelante la tarea de forma relativamente rápida?
¿Cómo validar los resultados? ¿Qué metodología de evaluación puede utilizar? ¿Qué métrica?

Tarea 2 (obligatoria): Análisis descriptivo

Realizar un análisis exploratorio general del dataset completo (sin filtrar todavía).
Presentar estadísticas básicas: cantidad de discursos, distribución por idiomas, partidos, género, duración y fechas.
Elaborar al menos dos visualizaciones (ej.: gráfico de barras por idioma, serie temporal por cantidad de discursos).

Algunas preguntas:

¿Qué grado de diversidad lingüistica e idiomática tiene el dataset?
¿Qué limitaciones pueden surgir al analizar discursos multilingües?

Tarea 3 (obligatoria): Filtrado en castellano

Conservar únicamente los discursos en castellano detectados en la Tarea 1.
Definir criterios de limpieza (umbral de confianza, eliminación de falsos positivos, exclusión de textos muy cortos, etc.).
Documentar cuántos discursos quedan tras el filtrado.
Explorar la distribución del subcorpus en castellano por partido, género y fechas.
Discutir qué implica trabajar solo con discursos en castellano dentro de un Parlamento multilingüe.

Tarea 4 (opcional): Detección de temas principales

Identificar los principales temas de los discursos en castellano.
Presentar al menos dos estrategias comparadas.
¿Qué asuntos dominan el debate parlamentario en español?
¿Se ven diferencias según partido, fecha y/o género?

Tarea 5 (opcional): Predicción de partido político

Intentar predecir el grupo partidario a partir del texto del discurso.
Comparar al menos dos estrategias (dos LLMs, un LLM y clasificación mediante word-embedding, etc.)
Evaluar con métricas adecuadas (accuracy, F1, matriz de confusión).
¿Qué tan predecible es la ideología política a partir del lenguaje parlamentario?
¿Cuáles pueden ser los motivos?

Cronograma del Trabajo Final Integrador (5 clases)

Clase	Hitos principales	Productos esperados
06/10	Tarea 1: Detección de idioma	- Pipeline inicial de detección de idioma - Estadísticas de distribución por idiomas - Validación manual en una muestra
13/10	Tarea 2: Análisis descriptivo (dataset completo, sin filtrar)	- Tablas descriptivas (cantidad de discursos, partidos, género, duración, fechas) - Al menos dos visualizaciones - Discusión de sesgos del dataset - Presentación oral (5 min por grupo) y feedback
20/10	Tarea 3: Filtrado en castellano	- Subcorpus depurado en castellano - Estadísticas descriptivas del subcorpus (partidos, género, fechas) - Reflexión sobre las implicancias de trabajar solo con discursos en español - Presentación oral (5 min por grupo) y feedback
27/10	Tarea 4 o 5 (opcional): inicio del modelado	- Elección entre análisis temático o predicción de partido - Prototipo inicial de modelo (primeros resultados o métricas) - Presentación oral (5 min por grupo) y feedback
03/11	Tarea 4 o 5 (continuación) + presentación preliminar	- Segundo enfoque probado y comparado - Esbozo de resultados finale - Presentación oral (5 min por grupo) y feedback
10/11	Presentación final	- Presentación oral (10 min por grupo) y feedback - Entrega de informe final de resultados
17/11	Cierre	- Cierre de la materia y del track - Entrega de notas - ¿Brindis (sin alcohol, solo Gatorei)?

Entregables

Código reproducible (en R o Python), bien comentado.
Informe escrito (máximo 14 páginas, formato académico), con:
- Introducción: planteo del problema y justificación sociológica.
- Metodología: decisiones técnicas y justificación de herramientas.
- Resultados: tablas, métricas, visualizaciones.
- Discusión: interpretación sociológica y reflexión crítica.
- Conclusiones: síntesis de hallazgos y limitaciones.
Presentación oral (10 min) al final del curso.

Fecha de exposición y entrega

Lunes 10/11/2025 - 18.00 hs.

Cierre de la materia y entrega de notas

Lunes 17/11/2025 - 18.00 hs.