library(tidyverse)
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.1.0     v purrr   0.2.5
v tibble  2.1.3     v dplyr   0.8.3
v tidyr   0.8.2     v stringr 1.3.1
v readr   1.3.1     v forcats 0.3.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
library(sf)
Linking to GEOS 3.6.1, GDAL 2.2.3, PROJ 4.9.3
library(lubridate)

Attaching package: 㤼㸱lubridate㤼㸲

The following object is masked from 㤼㸱package:base㤼㸲:

    date
delitos <- read.csv("./data/delitos.csv")
delitos <- delitos %>%
                sample_n(5000)

Las cinco instrucciones básicas de dplyr

Todas pueden ser usadas en conjunto con group_by() que cambia el “scope” de cada función: en lugar de operar sobre todo el dataset, lo hace al interior de cada grupo definido.

Las cinco instrucciones básicas de dplyr

Estas 6 funciones proveen los verbos para un “lenguaje” de manipulación de datos. Todas funcionan de forma parecida

  1. El primer argumento es un dataframe
  2. Los siguientes argumentos decriben qué hacer con el data frame, usando los nombres de variables sin comillas
  3. El resultado es un nuevo dataframe

Filtrando filas con filter()

Permite subsetear observaciones basados en sus valores.

Filtrando filas con filter()

f <- filter(delitos, 
            comuna=='Comuna 6' | comuna=='Comuna 10')
head(f)

Filtrando filas con filter()

Para usar los filtros de forma efectiva es importante tener en cuenta los operadores que se usan

Un error común:

Operadores lógicos

Filtrando filas con filter()

Seleccionemos los registros que ocurrieron en diciembre y enero

filter(delitos, month(ymd(fecha)) == 1 | month(ymd(fecha)) == 12)

Otra forma:

filter(delitos, month(ymd(fecha)) %in% c(1,12))

Filtrando filas con filter()

Simplificar expresiones complicadas Ley de De Morgan:

rara traer los delitos que NO fueron en la Comuna 1 y NO en el primer trimestre del año, ambas líneas producen el mismo resultado:

filter(delitos, !(comuna=='Comuna 6' | month(ymd(fecha)) > 3))
filter(delitos, (!comuna=='Comuna 6' & !month(ymd(fecha)) > 3))

Filtrando filas con filter()

Missing data

Los NA son tramposos en R.

  • Casi cualquier operación incluyendo un NA va a devolver otro NA
x <- NA
y <- NA
x == y
[1] NA

Filtrando filas con filter()

Missing data

  • Para detectar NA se puede usar la función is.na(x)
is.na(x)
[1] TRUE
df <- data.frame(x = c(1, NA, 3))
filter(df, x > 1)
filter(df, x > 1 | is.na(x))

Ordenando filas con arrange()

f<-arrange(delitos, comuna, ymd(fecha), hms(hora))
head(f)

Ordenando filas con arrange()

f<-arrange(delitos, comuna, desc(ymd(fecha)), desc(hms(hora)))
head(f)

Seleccionando columnas con select()

f<-select(delitos, comuna, barrio, tipo_delito) # Selección por nombre
head(f)
f<-select(delitos, comuna:fecha) # Selección por rango de nombres
head(f)
f<-select(delitos, -(comuna:fecha)) # Selección de todas las columnas excepto las que están en el rango de nombres
head(f)

Seleccionando columnas con select()

Algunas funciones útiles

  • starts_with("abc"): matchea nombres que empiezan con “abc”.
  • ends_with("xyz"): matchea nombres que terminan con “xyz”.
  • contains("ijk"): matchea nombres que contienen con “ijk”.
  • matches("(.)\\1"): selecciona variables que matchean con una regex
  • num_range("x", 1:3): matchea x1, x2 y x3.

Seleccionando columnas con select()

f<-select(delitos, comuna, barrio, tipo_delito, everything())
head(f)

Seleccionando columnas con select()

head(rename(delitos, COMUNA=comuna))

Transformando columnas con mutate()

f<-mutate(delitos, 
          hora_simple = hour(hms(hora)),
          dia=day(ymd(fecha)),
          mes=month(ymd(fecha)),
          year=year(ymd(fecha)))
head(f)

Transformando columnas con mutate()

Algunas operaciones de creación útiles

  • Operadores aritméticos: +, -, *, /, ^, son útiles en conjunción con estadísticos: zscore = (x - mean(x))/sd(x)
  • Logs: log(), log2(), log10(): útiles cuando nos encontramos con datos de escalas muy diversas. También para convertir relaciones multiplicativas en aditivas -sumamente práctico para la etapa de modelado-.
  • Offsets: lead() y lag()
  • Acumuladores: cumsum(), cumprod(), cummin(), cummax(), cummean()

  • Muchos más en R for Data Science

group_by + summarize()

f<-group_by(delitos, f=month(ymd(fecha), label=TRUE))
summarize(f, delay=n())
