library(tidyverse)
[37m-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --[39m
[37m[32mv[37m [34mggplot2[37m 3.1.0 [32mv[37m [34mpurrr [37m 0.2.5
[32mv[37m [34mtibble [37m 2.1.3 [32mv[37m [34mdplyr [37m 0.8.3
[32mv[37m [34mtidyr [37m 0.8.2 [32mv[37m [34mstringr[37m 1.3.1
[32mv[37m [34mreadr [37m 1.3.1 [32mv[37m [34mforcats[37m 0.3.0[39m
[37m-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[37m [34mdplyr[37m::[32mfilter()[37m masks [34mstats[37m::filter()
[31mx[37m [34mdplyr[37m::[32mlag()[37m masks [34mstats[37m::lag()[39m
library(sf)
Linking to GEOS 3.6.1, GDAL 2.2.3, PROJ 4.9.3
library(lubridate)
Attaching package: 㤼㸱lubridate㤼㸲
The following object is masked from 㤼㸱package:base㤼㸲:
date
delitos <- read.csv("./data/delitos.csv")
delitos <- delitos %>%
sample_n(5000)
Las cinco instrucciones básicas de dplyr
- Elegir observaciones en función a sus valores:
filter()
.
- Reordenar las filas
arrange()
- Seleccionar variables de acuerdo a su nombre:
select()
- Crear variables nuevas en función de variables ya existentes:
mutate()
- Colapsar valores a un solo resumen:
summarise()
Todas pueden ser usadas en conjunto con group_by()
que cambia el “scope” de cada función: en lugar de operar sobre todo el dataset, lo hace al interior de cada grupo definido.
Las cinco instrucciones básicas de dplyr
Estas 6 funciones proveen los verbos para un “lenguaje” de manipulación de datos. Todas funcionan de forma parecida
- El primer argumento es un dataframe
- Los siguientes argumentos decriben qué hacer con el data frame, usando los nombres de variables sin comillas
- El resultado es un nuevo dataframe
Filtrando filas con filter()
Permite subsetear observaciones basados en sus valores.
- El primer argumento es el dataframe
- Los siguientes, las expresiones filtran el dataset
Filtrando filas con filter()
f <- filter(delitos,
comuna=='Comuna 6' | comuna=='Comuna 10')
head(f)
Filtrando filas con filter()
Para usar los filtros de forma efectiva es importante tener en cuenta los operadores que se usan
Un error común:
filter(delitos, comuna='Comuna 6')
Filtrando filas con filter()
Seleccionemos los registros que ocurrieron en diciembre y enero
filter(delitos, month(ymd(fecha)) == 1 | month(ymd(fecha)) == 12)
Otra forma:
filter(delitos, month(ymd(fecha)) %in% c(1,12))
Filtrando filas con filter()
Simplificar expresiones complicadas Ley de De Morgan:
!(x & y) == !x | !y
!(x | y) == !x & !y
rara traer los delitos que NO fueron en la Comuna 1 y NO en el primer trimestre del año, ambas líneas producen el mismo resultado:
filter(delitos, !(comuna=='Comuna 6' | month(ymd(fecha)) > 3))
filter(delitos, (!comuna=='Comuna 6' & !month(ymd(fecha)) > 3))
Filtrando filas con filter()
Missing data
Los NA
son tramposos en R.
- Casi cualquier operación incluyendo un
NA
va a devolver otro NA
x <- NA
y <- NA
x == y
[1] NA
Filtrando filas con filter()
Missing data
- Para detectar
NA
se puede usar la función is.na(x)
is.na(x)
[1] TRUE
df <- data.frame(x = c(1, NA, 3))
filter(df, x > 1)
filter(df, x > 1 | is.na(x))
Ordenando filas con arrange()
arrange()
funciona de forma similar a filter()
pero en lugar de seleccionar filas, cambia su orden
- Toma un dataframe y un set de columnas (o expresiones más complicadas)
f<-arrange(delitos, comuna, ymd(fecha), hms(hora))
head(f)
Ordenando filas con arrange()
- Usamos
desc()
para ordenar de forma descendente
f<-arrange(delitos, comuna, desc(ymd(fecha)), desc(hms(hora)))
head(f)
- Los
NA
siempre quedan al final de la tabla.
Seleccionando columnas con select()
- Es habitual encontrarse con datasets de cientos o miles de variables.
select()
permite concentrarse en las variables que a uno le resulten relevantes
- Se basa en los nombres de las variables
f<-select(delitos, comuna, barrio, tipo_delito) # Selección por nombre
head(f)
f<-select(delitos, comuna:fecha) # Selección por rango de nombres
head(f)
f<-select(delitos, -(comuna:fecha)) # Selección de todas las columnas excepto las que están en el rango de nombres
head(f)
Seleccionando columnas con select()
Algunas funciones útiles
starts_with("abc")
: matchea nombres que empiezan con “abc”.
ends_with("xyz")
: matchea nombres que terminan con “xyz”.
contains("ijk")
: matchea nombres que contienen con “ijk”.
matches("(.)\\1")
: selecciona variables que matchean con una regex
num_range("x", 1:3)
: matchea x1, x2 y x3.
Seleccionando columnas con select()
- Para cambiar el orden de las columnas es útil usar
everything()
f<-select(delitos, comuna, barrio, tipo_delito, everything())
head(f)
Seleccionando columnas con select()
- Para renombrar puede usarse
rename()
head(rename(delitos, COMUNA=comuna))
group_by
+ summarize()
group_by
cambia la unidad de análsisi del dataset a grupos. Así, al llamar a cualqyuer verbo de dplyr
se aplica “por grupo”,
- COnteo de delitos por mes
f<-group_by(delitos, f=month(ymd(fecha), label=TRUE))
summarize(f, delay=n())
