El objetivo de esta trabajo es doble:
Actualmente se dispone de un corpus de letras de tango y otro de rock. El proceso de recolección de información fue elaborado a partir del srapeo de dos repositorios de letras:
Ambos agrupan una gran cantidad de letras (5.600 y 16.000 respectivamente).
En ambos casos además de la letra de cada canción, se recabó información complementaria (llamada, en la jerga, metadata): el nombre de la banda/artista, el nombre del disco en el que fue incluida y la fecha de lanzamiento del disco/canción en cuestión.
Un punto importante a tener en cuenta es que en el caso del corpus de letras de tango hay una gran cantidad de datos faltantes en la fecha (alrededor del 60% del total de letras). A su vez, en el caso del corpus de letras de rock, la fecha con la que contamos es la de edición del disco en el que se encuentra la letra analizada. Esto plantea ciertas limitaciones al análisis, en tanto la fecha de composición/escritura de una canción no necesariamente coincide con la de la edición en un disco.
Pueden encontrar dos análisis de cada corpus en los siguientes textos:
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.3 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(tidytext)
letras <- read_delim('./data/tango_rock.csv', delim=",")
## Rows: 21878 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): link, artista, titulo, letra, genero
## dbl (1): fecha
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Es importante que reflexionen acerca de cuál es el modelo más adecuado para abordar esta consigna. Pueden, lógicamente, entrenar más de un modelo (LDA, STM) y comparar sus resultados.
En las clases se pusieron en práctica diferentes formas de evaluar un modelo de tópicos (métricas para idenficar las palabras más relevantes en un tópico, formas de hacer lecturas de una muestra de documentos, etc.). Deberán utilizarlas para hacer una evaluación y para mejorar la interpretación del modelo entrenado.
Deberán utilizar el siguiente word embedding pre-entrenado. Deberán descargar el archivo .bin.
A partir de la lectura del paper de Kozlowsky et al, deberán seleccionar uno de los temas que se evalúan (raza, clase, género, etc.) y detectar qué palabras se encuentran más cerca de ese tema seleccionado e interpretar sus resultados.
Lunes 27/11/2023 - 18.00 hs.