Docente: Germán Rosati
Presentación y objetivo del curso:
Debido a su carácter de software libre y a la creciente comunidad de usuarios el lenguaje R se ha convertido en algo así como la lingua franca dentro del análisis estadístico. El presente seminario se propone realizar una introducción a algunos conceptos fundamentales de la programación estadística en R. A su vez, se hará énfasis en la implementación de análisis estadísticos básicos (descriptivos y regresiones) en R. .
El curso se propone que los alumnos:
- se familiaricen con aspectos relevantes de la programación estadística en lenguaje R y con el llamado
tidyverse
en particular - logren implementar e interpretar análisis estadísticos descriptivos y modelos de regresión en lenguaje R
- logren identificar situaciones de aplicación de este tipo de modelos a problemas de investigación básica y aplicada
Contenidos y materiales
Datos para trabajar
- Dataset Delitos CABA
- Radios censales CABA
- Radios censales Santiago-La Banda
- Google Places Santiago-La Banda
Clase 1.
Elementos de programación estadística en R:* Objetos en R (vectores, matrices, data frames y listas). Introducción al tydiverse
: data wrangling (select()
, filter()
, arrange()
, mutate()
. summarise()
, group_by()
, left_join()
). Estructuras de control: for
,if
. Uso e implementación de funciones ad-hoc. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).
- Explicación y práctica guiada 1 - Notebook
- Explicación y práctica guiada 2 - Notebook
- Explicación y práctica guiada 2 - RCode
Clase 2.
Visualización y generación de gráficos en R:* Nociones de graficación (forma, color, tamaño, color). Niveles de medición y gráficos adecuados. Introducción a ggplot2
: ggplot()
, geom_points()
, geom_smooth()
, aes()
, facet_wrap()
, facet_grid()
. Pipeline general de un proyecto con datos geográficos.
- Explicación y práctica guiada 1 - Notebook
- Explicación y práctica guiada 2 - Notebook
- Explicación y práctica guiada 2 - RCode
Clase 3.
Introducción a los problemas de regresión y clasificación en R:* Implementación y análisis de modelos de regresión lineal y logística. Evaluación del modelo: supuestos, ajuste, estimación de error de generalización. Extensiones del modelo lineal y logístico: variables cualitativas, no linealidad, etc. Funciones lm, glm y predict. Funciones lm()
, glm()
y predict()
.
Consignas del Trabajo Final
Bibliografía básica
- James, G., Witten, D., Hastie, T., Tibshirani, R. (2013), An Introduction to Statistical Learning with Applications in R, Berlin: Springer.
- R Core Development Team, (2000), Introducción a R. Notas sobre R: Un entorno de programación para Análisis de Datos y Gráficos.
- Tetor, P. (2011), R Cookbook. Proven recipes for data analysis, statistics and graphics, New York: O Reilly.
Requisitos para la cursada y aprobación
Conocimientos básicos de estadística descriptiva y cierta familiaridad con el modelo de regresión lineal y logística. Será útil (pero no absolutamente necesario) alguna experiencia en programación estadística (sea en SPSS, Stata o similar) Para la aprobación del curso se requiere:
- un mínimo de asistencia del 80% sobre el total de clases y
- la entrega y aprobación de una monografía final
Fuentes
El material para el curso fue extraído y transformado de diversas fuentes.
- Curso R Progamming - Coursera
- Curso Progrmación Estadística en R - Coursera
- Materiales didácticos de Introduction to Statistical Learning, escrito por James, Witten, Hastie y Tibshirani
- Materiales de Kelly Black
- R for Data Science
- Ciencia de Datos para Gente Sociable
- Quick R Tutorial
- R Tutorial
- R Cheat-Sheet
- R Reference Card
- A very quick introduction to ggplot2