Forman parte de un equipo interdisciplinario de investigación contratado por el Parlamento Europeo. El objetivo de su equipo es analizar los discursos parlamentarios del año 2021 para responder preguntas clave sobre:
El trabajo se basa en un dataset de discursos del Parlamento Europeo del año 2021. Se han filtrado discursos en idiomas con poca cantidad de casos y temas poco relevantes.
Cada observación contiene:
TEXTID: id del textoCODICT: id del texto (código)DATE: fecha del discursoTEXT: texto completo del discurso (en varios
idiomas)VOD-START: timestap de inicio del discursoVOD-END: timestap de finalización del discursoparty_final: orientación ideológica del grupo
partidariopoliticalGroup: nombre del grupo políticogender: género del/la parlamentario/acountry: país de nacimiento del parlamentarioReferencia para de la base de datos completa: Kocoń et al., 2023
Aplicar las técnicas vistas en clase para procesar y analizar datos textuales a partir de un corpus real.
El trabajo se realizará en grupos hasta 3 estudiantes.
Para cada una de las tareas especificadas podrán utilizar cualquiera de las técnicas que cubrimos a lo largo del curso. Podrán (y probablemente deberán) utilizar varias para una misma tarea en alguna forma de “pipeline” o secuencia. Solo por mencionar algunas:
Algunas preguntas orientadoras
Algunas preguntas:
Conservar únicamente los discursos en castellano detectados en la
Tarea 1.
Definir criterios de limpieza (umbral de confianza, eliminación
de falsos positivos, exclusión de textos muy cortos, etc.).
Documentar cuántos discursos quedan tras el filtrado.
Explorar la distribución del subcorpus en castellano por partido, género y fechas.
Discutir qué implica trabajar solo con discursos en castellano dentro de un Parlamento multilingüe.
Identificar los principales temas de los discursos en
castellano.
Presentar al menos dos estrategias comparadas.
¿Qué asuntos dominan el debate parlamentario en español?
¿Se ven diferencias según partido, fecha y/o género?
| Clase | Hitos principales | Productos esperados |
|---|---|---|
| 06/10 | Tarea 1: Detección de idioma | - Pipeline inicial de detección de idioma - Estadísticas de distribución por idiomas - Validación manual en una muestra |
| 13/10 | Tarea 2: Análisis descriptivo (dataset completo, sin filtrar) | - Tablas descriptivas (cantidad de discursos, partidos, género,
duración, fechas) - Al menos dos visualizaciones - Discusión de sesgos del dataset - Presentación oral (5 min por grupo) y feedback |
| 20/10 | Tarea 3: Filtrado en castellano | - Subcorpus depurado en castellano - Estadísticas descriptivas del subcorpus (partidos, género, fechas) - Reflexión sobre las implicancias de trabajar solo con discursos en español - Presentación oral (5 min por grupo) y feedback |
| 27/10 | Tarea 4 o 5 (opcional): inicio del modelado | - Elección entre análisis temático o predicción de partido - Prototipo inicial de modelo (primeros resultados o métricas) - Presentación oral (5 min por grupo) y feedback |
| 03/11 | Tarea 4 o 5 (continuación) + presentación preliminar | - Segundo enfoque probado y comparado - Esbozo de resultados finale - Presentación oral (5 min por grupo) y feedback |
| 10/11 | Presentación final | - Presentación oral (10 min por grupo) y feedback - Entrega de informe final de resultados |
| 17/11 | Cierre | - Cierre de la materia y del track - Entrega de notas - ¿Brindis (sin alcohol, solo Gatorei)? |
Lunes 10/11/2025 - 18.00 hs.
Lunes 17/11/2025 - 18.00 hs.