Clase 1. Tidydata para Procesamiento de Lenguaje Natural

Vamos a trabajar con unos 340 textos de Lenin y Rosa Luxemburgo (también provenientes del dataset que Diego Koslowski escrapeó del Marxist Internet Archive).

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(tidytext)

1. Cargamos los datos

rosa_lenin <- read_csv('../data/lenin_luxemburgo.csv')

## Rows: 92 Columns: 4
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (4): tipo, autor, titulo, texto
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

2. Construimos la tabla de tokens del texto

###

3. Eliminamos stopwords

Primero cargamos el diccionario de stopwords

stop_words <- read_csv('../data/stop_words_complete.csv', col_names=FALSE) %>%
        rename(word = X1) %>%
        mutate(word = stringi::stri_trans_general(word, "Latin-ASCII"))

## Rows: 1767 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): X1, X2
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Ahora sí, podemos proceder a la eliminación:

###

4. ¿Cuáles son las palabras más usadas en el dataset?

###

5. ¿Se observa alguna diferencia entre las palabras que usan Rosa y Lenin?

###

Clase 1. Tidydata para Procesamiento de Lenguaje Natural

Práctica independiente

Germán Rosati

04 agosto, 2025

1. Cargamos los datos

2. Construimos la tabla de tokens del texto

3. Eliminamos stopwords

4. ¿Cuáles son las palabras más usadas en el dataset?

5. ¿Se observa alguna diferencia entre las palabras que usan Rosa y Lenin?