Modelado de tópicos Vol. 1. Latent Dirichlet Allocation

Introducción

Habíamos dicho que el ejemplo de la clase era un poco de juguete. Una de las ventajas del topic modeling es poder detectar gran cantidad de tópicos y, en muchos casos, esos tópicos tienen una gran granularidad.

Es por ello que la idea de esta actividad es que puedan interpretar un modelo con una mayor cantidad de tópicos y generar algunas de las visualizaciones que vimos en la clase.

Cargar las librerías y el modelo preentrenado

Dado que entrenar un modelo de 10 tópicos puede tardar un rato (10-20 minutos) para este corpus hemos preentrenado uno. Pueden cargarlo ejecutando esta celda:

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(topicmodels)
library(tidytext)
library(tictoc)

lda_10 <- read_rds('../models/lda_10.rds')
lda_10

## A LDA_VEM topic model with 10 topics.

Si quisieran entrenarlo ustedes mismos o probar otras especificaciones, pueden hacerlo simplemente cambiando el parámetro k:

#lda_10 <- LDA(disc_dtm, k=10, control = list(seed = 9875))

Generar el gráfico de palabras por tópicos

###

Realizar la interpretación de cada uno de los tópicos

Construir una visualización que permita realizar un análisis de la composición de tópicos según la categoría de la revista.

###

Modelado de tópicos Vol. 1. Latent Dirichlet Allocation

Práctica Independiente. Un modelo de 10 tópicos

Germán Rosati

18 agosto, 2025

Introducción

Cargar las librerías y el modelo preentrenado

Generar el gráfico de palabras por tópicos

Realizar la interpretación de cada uno de los tópicos

Construir una visualización que permita realizar un análisis de la composición de tópicos según la categoría de la revista.