Trabajo Final Integrador

Introducción

El objetivo de esta trabajo es doble:

integrar los conceptos y las implementaciones de vectorización de texto y construcción de lexicones que estuvimos trabajando
identificar tópicos y temas dentro del dataset del proyecto “Letras de la música popular argentina”
hacer un primer uso de word embeddings

Actualmente se dispone de un corpus de letras de tango y otro de rock. El proceso de recolección de información fue elaborado a partir del srapeo de dos repositorios de letras:

todotango.com
rock.com.ar

Ambos agrupan una gran cantidad de letras (5.600 y 16.000 respectivamente).

En ambos casos además de la letra de cada canción, se recabó información complementaria (llamada, en la jerga, metadata): el nombre de la banda/artista, el nombre del disco en el que fue incluida y la fecha de lanzamiento del disco/canción en cuestión.

Un punto importante a tener en cuenta es que en el caso del corpus de letras de tango hay una gran cantidad de datos faltantes en la fecha (alrededor del 60% del total de letras). A su vez, en el caso del corpus de letras de rock, la fecha con la que contamos es la de edición del disco en el que se encuentra la letra analizada. Esto plantea ciertas limitaciones al análisis, en tanto la fecha de composición/escritura de una canción no necesariamente coincide con la de la edición en un disco.

Pueden encontrar dos análisis de cada corpus en los siguientes textos:

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(tidytext)

Cargamos los datos

letras <- read_delim('./data/tango_rock.csv', delim=",")

## Rows: 21878 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): link, artista, titulo, letra, genero
## dbl (1): fecha
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Identificar e interpretar los temas más relevantes del corpus de letras de rock. Analizar su evolución a lo largo del tiempo.

Es importante que reflexionen acerca de cuál es el modelo más adecuado para abordar esta consigna. Pueden, lógicamente, entrenar más de un modelo (LDA, STM) y comparar sus resultados.

Evaluar el modelo seleccionado utilizando las técnicas de evaluación vistas.

En las clases se pusieron en práctica diferentes formas de evaluar un modelo de tópicos (métricas para idenficar las palabras más relevantes en un tópico, formas de hacer lecturas de una muestra de documentos, etc.). Deberán utilizarlas para hacer una evaluación y para mejorar la interpretación del modelo entrenado.

Uso de word embeddings

Deberán utilizar el siguiente word embedding pre-entrenado. Deberán descargar el archivo .bin.

A partir de la lectura del paper de Kozlowsky et al, deberán seleccionar uno de los temas que se evalúan (raza, clase, género, etc.) y detectar qué palabras se encuentran más cerca de ese tema seleccionado e interpretar sus resultados.

Entregables

Un documento (de unas 15 páginas cómo máximo) en el que se expongan los resultados del análisis
Un archivo (.R) con el código que da origen a los resultados del documento anterior
Cada grupo deberá presentar de forma oral los resultados de este ejercicio en las tres consignas. Dispondrán de 20 minutos y deberán preparar una presentación en Google Slides o formato similar.

Fecha de exposición y entrega

Lunes 27/11/2023 - 18.00 hs.