> library(tidyverse)
> library(broom)
> library(leaps)
> library(car)
El Departamento de Salud y Servicios Humanos, los Centros para el Control y la Prevención de Enfermedades recopilan información sobre los nacimientos registrados en el país. Los datos utilizados aquí son una muestra aleatoria de 1000 nacimientos de 2014. Aquí estudiamos la relación entre la edad del padre y el peso del bebé. (PIDSR 2014)
A continuación se muestran dos elementos. El primero es el resultado del modelo lineal estándar para predecir el peso del bebé (en libras) a partir de la edad del padre (en años). El segundo es la distribución de arranque de la estadística de pendiente de 1000 muestras de arranque diferentes de los datos.
Vamos a volver a trabajar con los set de datos a nivel internacional.
Solo para recordar, diremos que el primero, es un dataset
(.wb_bank_data_2019.csv
) con información construida por el
Banco Mundial acerca de la distribución de la población ocupada según
grandes sectores de actividad y categoría ocupacional:
SL.AGR.EMPL.ZS
: % total el empleo en agricultura:
consistente en las actividades de agricultura, silvicultura, caza y
pescaSL.IND.EMPL.ZS
: % total de empleo en industria: en
actividades de minas y canteras, manufacturas, construcción y energía,
gas y agua.SL.SERV.EMPL.ZS
% total de empleo el servicios
comprende comercio al por mayor y menor y restaurantes y hoteles,
transporte, almacenamiento y comunicaciones, finanzas, seguros,
servicios inmobiliarios y a las empresas y servicios personales,
sociales y comunales.SL.FAM.WORK.ZS
: % total de trabajadores familiaresSL.EMP.MPYR.ZS
: % total de empleadoresSL.EMP.SELF.ZS
: % total de independientes (cuenta
propias)SL.EMP.WORK.ZS
: % total de trabajadores
asalariadosEl segundo (HDI_HDR2020_040722.csv
) son las componentes
del Human Development Index (HDI) elaborado por UNDP para el período
1992-2019. El HDI es un promedio a nivel país de cuatro variables
fundamentales:
Copiamos y pegamos el preprocesmiento de los datos:
> df <- read_csv("./data/wb_bank_data_2019.csv")
> hdi <- read_csv("./data/HDI_HDR2020_040722.csv")
>
> ## Pueden repetir el procesamiento que hicimos en la clase 4
Estimar una regresión que tenga como variable dependiente al producto bruto por cápita y como variables predictoras la expectativa de vida, el promedio de años de escolaridad, la proporción de trabajadores asalariados, la proporción de personas ocupadas en el sector agropecuario, en el sector servicios .
> ###
> ###
¿Cuáles son las variables que no contienen al cero en su intervalo de confianza?
Analizando los p-valores, ¿qué variables presetan efectos significativamente diferentes a cero?
Compare los resultados de las dos últimas pregutas. ¿Son coincidentes? ¿Las variables cuyos efectos son significativamente diferentes a cero y las variables cuyo IC no contiene a cero son las mismas?