Introducción
La idea de esta serie notebooks es poder introducir algunos conceptos básicos del llamado tidyverse
en R. Vamos a tratar de hacernos amigos de algunos algunos de los verbos que vimos hace un rato y que nos van a hacer la vida más fácil en la manipulación de datos.
Objetivos
- Brindar nociones sobre la lógica general del
tidyverse
para el preprocesamiento de datos
- Introducir algunas funciones básicas para el filtrado, trasformación y merge de datos
- Presentar herramientas para la visualización de datos
En el notebook anterior, introdujimos algunos varios aspectos:
- Empezamos explorar una herramienta para visualización de datos:
ggplot2()
- Mencionamos y utilizamos los cinco verbos de
dplyr
que más son utilizados en el preprocesmaiento de datos: filter()
, mutate()
, group_by()
, summarize()
y arrange()
- Realizamos algunas tareas de preprocesamiento.
La idea es profundizar en estos problemas.
library(tidyverse)
delitos <- read.csv("../data/delitos.csv")
delitos <- delitos %>%
filter(latitud!=0, longitud!=0)
str(delitos)
'data.frame': 237445 obs. of 14 variables:
$ id : int 68400 68401 68402 68492 132437 132469 132480 132566 132583 134576 ...
$ comuna : Factor w/ 15 levels "Comuna 1","Comuna 10",..: 9 13 10 5 15 3 3 13 14 3 ...
$ barrio : Factor w/ 48 levels "AGRONOMIA","ALMAGRO",..: 3 12 20 5 15 46 46 12 40 39 ...
$ latitud : num -34.6 -34.7 -34.6 -34.6 -34.7 ...
$ longitud : num -58.4 -58.5 -58.4 -58.5 -58.5 ...
$ fecha : Factor w/ 731 levels "2016-01-01","2016-01-02",..: 305 305 305 305 305 305 305 305 305 305 ...
$ hora : Factor w/ 1417 levels "00:00:00","00:01:00",..: 61 147 235 174 1238 458 1213 1088 1148 1358 ...
$ uso_arma : Factor w/ 1 level "SIN USO DE ARMA": 1 1 1 1 1 1 1 1 1 1 ...
$ uso_moto : Factor w/ 1 level "SIN MOTO": 1 1 1 1 1 1 1 1 1 1 ...
$ lugar : logi NA NA NA NA NA NA ...
$ origen_dato : logi NA NA NA NA NA NA ...
$ tipo_delito : Factor w/ 7 levels "Homicidio Doloso",..: 1 1 1 2 3 3 6 3 6 3 ...
$ cantidad_vehiculos: int 0 0 0 0 0 0 0 0 0 0 ...
$ cantidad_victimas : int 0 0 0 1 0 0 0 0 0 0 ...
library(lubridate)
delitos <- delitos %>%
mutate(fecha=ymd(fecha))
Trabajando con fechas
Ya tenemos nuestro dataset listo y consistido. En este aparado, la idea es aplicar la potencia que tiene la librería lubridate
para manipular datos de fechas.
Veamos algunas de las tareas que podemos encarar. Tomemos cinco fechas elegidas al azar:
set.seed("99")
muestra_de_fechas <- delitos %>%
sample_n(5) %>%
select(fecha)
muestra_de_fechas
Veamos otra forma de obtener el mismo resultado:
set.seed("99")
muestra_de_fechas <- delitos %>%
sample_n(5) %>%
pull(fecha)
muestra_de_fechas
[1] "2017-11-01" "2016-12-10" "2017-02-17" "2017-09-06" "2017-10-03"
¿En qué se diferencian ambas?
Tomando como input este vector podemos
- Extraer el día de la semana que corresponde a cada fecha:
wday(muestra_de_fechas)
[1] 4 7 6 4 3
wday(muestra_de_fechas, label=TRUE)
[1] mié\\. sáb\\. vie\\. mié\\. mar\\.
7 Levels: dom\\. < lun\\. < mar\\. < mié\\. < jue\\. < ... < sáb\\.
month(muestra_de_fechas)
[1] 11 12 2 9 10
year(muestra_de_fechas)
[1] 2017 2016 2017 2017 2017
Operaciones parecidas podríamos hacer con variables de hora. Pueden consultar la documentación al respecto.
Veamos, ahora, la distribución mensual de delitos:
delitos %>%
select(fecha) %>%
ggplot() +
geom_bar(aes(x = month(fecha, label = TRUE)))

Podemos obtener también un gráfico de barras apiladas, para evaluar cuánto pesa cada tipo de delitp en el total:
delitos %>%
ggplot() +
geom_bar(aes(x = month(fecha, label = TRUE), fill = tipo_delito))

Y uno, 100% apilado:
delitos %>%
ggplot() +
geom_bar(aes(x = month(fecha, label = TRUE), fill = tipo_delito),
position = "fill")

O de barras sin apilar:
delitos %>%
ggplot() +
geom_bar(aes(x = month(fecha, label = TRUE), fill = tipo_delito),
position = "dodge")

El argumento position
es el que determina si creamos un gráfico apilado, 100% apilado o sin apilar.
Consignas
En todos los casos, realice el gráfico que considere más relevante para responder a la pregunta
- ¿En qué horarios del día hay más delitos habitualmente?
###
- ¿Cuál es el tipo de delito más habitual al mediodía?
###
- ¿Puede notarse alguna diferencia en la distribución horaria del total de delitos entre las comunas?
###
- Genere un gráfico de barras 100% apilado de la distribución de delitos por día de la semana (etiquetada), pero solamente correspondiente a los registros del año 2017:
###
- Seleccione el barrio con mayor cantidad de delitos en cada comuna -no es necesario hacer un gráfico-
###
Imporante…
Aquí hay un punto importante a tener en cuenta en el uso de los group_by
: el orden en el que pasamos las variables importa. En el ejemplo, anterior buscamos dentro cada comuna, el barrio con mayor conteo. Eso se ve en el group_by(comuna, barrio)
.
Ahora bien, supongamos que por error escribimos lo siguiente:
delitos %>%
group_by(barrio, comuna) %>%
summarise(tot=n()) %>%
filter(tot==max(tot)) %>%
arrange(comuna)
La salida ya no se parece a la anterior. Para empezar, tiene 48 filas… Lo que pasó aquí es que buscamos al interior de cada barrio, la comuna con mayor n de delitos, cosa que no tiene demasiado sentido.
Generando mapas buenos, bellos y bonitos
Ahora bien, hasta aquí hemos explorado la dimensión “tiempo” de nuestro dataset. Pero cómo habíamos mencionado en el notebook anterior, también contamos con una dimesión espacial, dado que tenemos los puntos georreferenciados.
Es por ello que vamos a mostrar como realizar algunos mapas interesantes, para lo cual, vamos a uilizar la librería ggmap
, que sigue buena parte de las convenciones y lógica de ggplot
.
library(ggmap)
Google's Terms of Service: https://cloud.google.com/maps-platform/terms/.
Please cite ggmap if you use it! See citation("ggmap") for details.
Una de las ventajas de ggmap
es que podemos generar un mapa base para que nuestros “puntitos” no se vean tan desprovistos, La manera más simple de hacerlo es definir una bounding box que va a constituir una especie de “caja” que deliminan las coordenadas de nuestro mapa base:
bbox <- c(min(delitos$longitud, na.rm = TRUE),
min(delitos$latitud, na.rm = TRUE),
max(delitos$longitud, na.rm = TRUE),
max(delitos$latitud, na.rm = TRUE))
CABA <- get_stamenmap(bbox = bbox,
maptype = "terrain-background")
Source : http://tile.stamen.com/terrain-background/10/345/616.png
Source : http://tile.stamen.com/terrain-background/10/346/616.png
Source : http://tile.stamen.com/terrain-background/10/345/617.png
Source : http://tile.stamen.com/terrain-background/10/346/617.png
Veamos cómo queda:
ggmap(CABA)

Podemos haber usado otro maptype
, el “toner-lite” es útil para visualizaciones por su contraste:
CABA <- get_stamenmap(bbox = bbox,
maptype = "toner-lite")
Source : http://tile.stamen.com/toner-lite/10/345/616.png
Source : http://tile.stamen.com/toner-lite/10/346/616.png
Source : http://tile.stamen.com/toner-lite/10/345/617.png
Source : http://tile.stamen.com/toner-lite/10/346/617.png
ggmap(CABA)

Mapeando datos…
Retomemos nuestro scatter de puntos: pero ahora compliquémosla desde el principio. Hagamos un mapa de todos los delitos, diferenciando por color el tipo de delito:
ggmap(CABA) +
geom_point(data = delitos, aes(x = longitud, y = latitud, color=tipo_delito),
size = 0.1, alpha = 0.1)

Está bonito, pero vemos dos problemas:
- La leyenda es difícil de leer
- La escala de colores no es la mejor, en tanto y en cuanto, no permite discernir claramente diferencias por categoría
El primer problema lo solucionamos fijando a mano los valores de la estética de la leyenda:
ggmap(CABA) +
geom_point(data = delitos,
aes(x = longitud, y = latitud, color = tipo_delito),
size = 0.1, alpha = 0.1) +
guides(color = guide_legend(override.aes = list(size=2, alpha = 1)))

El segundo… ya lo vimos… facetando
ggmap(CABA) +
geom_point(data = delitos,
aes(x = longitud, y = latitud, color = tipo_delito),
size = 0.2, alpha = 0.1) +
facet_wrap(~tipo_delito) +
guides(color = guide_legend(override.aes = list(size=2, alpha = 1))) +
theme(strip.text.x = element_text(size=7.5))

Ahí la cosa está un poco más clara. No obstante hay varias formas de hacer más observables estos patrones. Solo vamos a mostrar una, como para dar la intuición. Vamos a detectar las zonas de mayor concentración de delitos, por tipo de delito. Para ello, vamos a usar una técnica con el estrambótico nombre de two dimentional kernel density estimation.
ggmap(CABA) +
geom_density2d(data = delitos, aes(x = longitud, y = latitud, color = stat(level))) +
scale_color_viridis_c() +
facet_wrap(~tipo_delito) +
theme(strip.text.x = element_text(size=7.5))

Aquí se ve de forma más nítida que la distribución espacial de cada tipo de delito es bien diferenciada.
Veamos, ahora, la distribución del total de delitos por día y hora de la semana:
delitos <- delitos %>%
mutate(hora_base = hour(hms(hora)))
ggmap(CABA) +
geom_density2d(data = delitos, aes(x = longitud, y = latitud, color = stat(level))) +
scale_color_viridis_c() +
facet_wrap(~hora_base, nrow=4) +
labs(title = "Concentración espacial de delitos",
subtitle = "según hora del día")

NA
delitos <- delitos %>%
mutate(dia=wday(ymd(fecha), label=TRUE))
ggmap(CABA) +
geom_density2d(data = delitos, aes(x = longitud, y = latitud, color = stat(level))) +
scale_color_viridis_c() +
facet_wrap(~dia, ncol=3) +
labs(title = "Concentración espacial de delitos",
subtitle = "según día de la semana")

Consignas
Repetir los últimos mapas, pero generando información solamente sobre los hurtos de automotores.
###
###
