Vamos a trabajar con dos set de datos. El primero, es un dataset
(.wb_bank_data_2019.csv
) con información construida por el
Banco Mundial acerca de la distribución de la población ocupada según
grandes sectores de actividad y categoría ocupacional:
SL.AGR.EMPL.ZS
: % total el empleo en agricultura:
consistente en las actividades de agricultura, silvicultura, caza y
pescaSL.IND.EMPL.ZS
: % total de empleo en industria: en
actividades de minas y canteras, manufacturas, construcción y energía,
gas y agua.SL.SERV.EMPL.ZS
% total de empleo el servicios
comprende comercio al por mayor y menor y restaurantes y hoteles,
transporte, almacenamiento y comunicaciones, finanzas, seguros,
servicios inmobiliarios y a las empresas y servicios personales,
sociales y comunales.SL.FAM.WORK.ZS
: % total de trabajadores familiaresSL.EMP.MPYR.ZS
: % total de empleadoresSL.EMP.SELF.ZS
: % total de independientes (cuenta
propias)SL.EMP.WORK.ZS
: % total de trabajadores
asalariadosEl segundo (HDI_HDR2020_040722.csv
) son las componentes
del Human Development Index (HDI) elaborado por UNDP para el período
1992-2019. El HDI es un promedio a nivel país de cuatro variables
fundamentales:
En el dataset va a encontrarlas llamadas de la siguiente forma:
le_2019
: expectativa de vida al nacer de la
poblacióneys_2019
: años “esperados” de escolaridad de la
poblaciónmys_2019
: años promedios de escolaridadgnipc_2019
: producto bruto interno per cápitahdi_2019
: HDI para el paísEn ambos datasets van a encontrar los códigos de país
(iso3c
) y las etiquetas de país (country
) y
algunas otras menos útiles.
Cargue los dos datasets. ¿Cuál es la estructura de los datos? ¿Qué formato tienen? ¿Cuál es la unidad de análisis y cuáles las variables? ¿Cuál es el alcance temporal y geográfico?
> ###
Seleccione del dataset del HDI solamente las columnas que corresponden al año 2019.
> ###
Con el dataset recortado, realice un join para tener todas las variables en una sola tabla. ¿Qué variable debería usar para vincular ambas tablas?
> ###
¿Qué relacion existe (si es que existe) entre el HDI y la proporción de población asalariada? ¿Y entre el HDI y la proporción de población que trabaja en el sector agrario?
> ###
Queremos construir información sobre la relación entre el PBI per
cápita (gnipc_2019
) y variables relativas a la educación, a
la salud y al grado de desarrollo capitalista del país. Entrenar una
regresión lineal múltiple con las variables que considere
relevantes.
> ###
Chequeen los residuos del modelo. ¿Qué herramienta gráfica pueden usar para eso? ¿Son aleatorios?
> ###
Realicen un histograma de los residuos. ¿Qué forma tienen?
> ###
¿Parece que la condición de variabilidad constante del modelo es respectada? ¿Por qué?
> ###
¿Hay multicolinealidad en el modelo? ¿De qué grado? ¿Es un problema?
> ###
¿Cuál es el ajuste del modelo?
> ###
¿Cómo interpreta los resultados del modelo? ¿Cuál es, en su opinion, la variable más importante?
> ###