Entrenando dos modelos para predecir ingresos

El objetivo de esta práctica es que puedan entrenar dos modelos con caret y compararlos. Para ello, volveremos al problema de regresión original: queremos construir un modelo que permita predecir los ingresos de la ocupación principal (\(p21\)) de los ocupados en la semana de referencia encuestados en el II Trimestre de 2015.

Para ello, deberán entrenar una regresión lineal y un modelo de random forest y comparar sus performances.

Importar las librerías a utilizar

library(caret)
library(tidyverse)
library(rpart)

Importar y setear los datos correctamente


load('../data/EPH_2015_II.RData')

data$pp03i<-factor(data$pp03i, labels=c('1-SI', '2-No', '9-NS'))



data$intensi<-factor(data$intensi, labels=c('1-Sub_dem', '2-SO_no_dem', 
                                            '3-Ocup.pleno', '4-Sobreoc',
                                            '5-No trabajo', '9-NS'))

data$pp07a<-factor(data$pp07a, labels=c('0-NC',
                                        '1-Menos de un mes',
                                        '2-1 a 3 meses',
                                        '3-3 a 6 meses',
                                        '4-6 a 12 meses',
                                        '5-12 a 60 meses',
                                        '6-Más de 60 meses',
                                        '9-NS'))

df_imp <- data %>%
        filter(imp_inglab1==1) %>%
        select(-imp_inglab1)

df_train <- data %>%
        filter(imp_inglab1==0) %>%
        select(-imp_inglab1) %>%
        mutate(p21 = case_when(
                        p21==0 ~ 100,
                        TRUE ~ p21))

Hacer un train-test split


###

Entrenar la regresión lineal


###

Setear la partición para el tuneo del random forest


###

Generar la grilla de hiperparámetros


###

Entrenar el modelo


###

Realizar las predicciones en el test-set y comparar


###

Comparar en un scatter_plot las predicciones de cada modelo con los valores reales


###
LS0tCnRpdGxlOiAiUHLDoWN0aWNhIGluZGVwZW5kaWVudGUiCm91dHB1dDogaHRtbF9ub3RlYm9vawotLS0KCiMjIEVudHJlbmFuZG8gZG9zIG1vZGVsb3MgcGFyYSBwcmVkZWNpciBpbmdyZXNvcwoKRWwgb2JqZXRpdm8gZGUgZXN0YSBwcsOhY3RpY2EgZXMgcXVlIHB1ZWRhbiBlbnRyZW5hciBkb3MgbW9kZWxvcyBjb24gYGNhcmV0YCB5IGNvbXBhcmFybG9zLiBQYXJhIGVsbG8sIHZvbHZlcmVtb3MgYWwgcHJvYmxlbWEgZGUgcmVncmVzacOzbiBvcmlnaW5hbDogcXVlcmVtb3MgY29uc3RydWlyIHVuIG1vZGVsbyBxdWUgcGVybWl0YSBwcmVkZWNpciBsb3MgaW5ncmVzb3MgZGUgbGEgb2N1cGFjacOzbiBwcmluY2lwYWwgKCRwMjEkKSBkZSBsb3Mgb2N1cGFkb3MgZW4gbGEgc2VtYW5hIGRlIHJlZmVyZW5jaWEgZW5jdWVzdGFkb3MgZW4gZWwgSUkgVHJpbWVzdHJlIGRlIDIwMTUuCgpQYXJhIGVsbG8sIGRlYmVyw6FuIGVudHJlbmFyIHVuYSByZWdyZXNpw7NuIGxpbmVhbCB5IHVuIG1vZGVsbyBkZSByYW5kb20gZm9yZXN0IHkgY29tcGFyYXIgc3VzIHBlcmZvcm1hbmNlcy4KCiMjIyBJbXBvcnRhciBsYXMgbGlicmVyw61hcyBhIHV0aWxpemFyCmBgYHtyfQpsaWJyYXJ5KGNhcmV0KQpsaWJyYXJ5KHRpZHl2ZXJzZSkKbGlicmFyeShycGFydCkKYGBgCgojIyMgSW1wb3J0YXIgeSBzZXRlYXIgbG9zIGRhdG9zIGNvcnJlY3RhbWVudGUKYGBge3J9Cgpsb2FkKCcuLi9kYXRhL0VQSF8yMDE1X0lJLlJEYXRhJykKCmRhdGEkcHAwM2k8LWZhY3RvcihkYXRhJHBwMDNpLCBsYWJlbHM9YygnMS1TSScsICcyLU5vJywgJzktTlMnKSkKCgoKZGF0YSRpbnRlbnNpPC1mYWN0b3IoZGF0YSRpbnRlbnNpLCBsYWJlbHM9YygnMS1TdWJfZGVtJywgJzItU09fbm9fZGVtJywgCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgJzMtT2N1cC5wbGVubycsICc0LVNvYnJlb2MnLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICc1LU5vIHRyYWJham8nLCAnOS1OUycpKQoKZGF0YSRwcDA3YTwtZmFjdG9yKGRhdGEkcHAwN2EsIGxhYmVscz1jKCcwLU5DJywKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICcxLU1lbm9zIGRlIHVuIG1lcycsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAnMi0xIGEgMyBtZXNlcycsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAnMy0zIGEgNiBtZXNlcycsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAnNC02IGEgMTIgbWVzZXMnLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgJzUtMTIgYSA2MCBtZXNlcycsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAnNi1Nw6FzIGRlIDYwIG1lc2VzJywKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICc5LU5TJykpCgpkZl9pbXAgPC0gZGF0YSAlPiUKICAgICAgICBmaWx0ZXIoaW1wX2luZ2xhYjE9PTEpICU+JQogICAgICAgIHNlbGVjdCgtaW1wX2luZ2xhYjEpCgpkZl90cmFpbiA8LSBkYXRhICU+JQogICAgICAgIGZpbHRlcihpbXBfaW5nbGFiMT09MCkgJT4lCiAgICAgICAgc2VsZWN0KC1pbXBfaW5nbGFiMSkgJT4lCiAgICAgICAgbXV0YXRlKHAyMSA9IGNhc2Vfd2hlbigKICAgICAgICAgICAgICAgICAgICAgICAgcDIxPT0wIH4gMTAwLAogICAgICAgICAgICAgICAgICAgICAgICBUUlVFIH4gcDIxKSkKCgpgYGAKCgoKIyMjIEhhY2VyIHVuIHRyYWluLXRlc3Qgc3BsaXQKCmBgYHtyfQoKIyMjCgpgYGAKCgoKIyMjIEVudHJlbmFyIGxhIHJlZ3Jlc2nDs24gbGluZWFsCgpgYGB7cn0KCiMjIwoKYGBgCgoKCiMjIyBTZXRlYXIgbGEgcGFydGljacOzbiBwYXJhIGVsIHR1bmVvIGRlbCByYW5kb20gZm9yZXN0CgpgYGB7cn0KCiMjIwoKYGBgCgoKCiMjIyBHZW5lcmFyIGxhIGdyaWxsYSBkZSBoaXBlcnBhcsOhbWV0cm9zCgpgYGB7cn0KCiMjIwoKYGBgCgoKCiMjIyBFbnRyZW5hciBlbCBtb2RlbG8KCmBgYHtyfQoKIyMjCgpgYGAKCgoKIyMjIFJlYWxpemFyIGxhcyBwcmVkaWNjaW9uZXMgZW4gZWwgdGVzdC1zZXQgeSBjb21wYXJhcgoKYGBge3J9CgojIyMKCmBgYAoKCgojIyMgQ29tcGFyYXIgZW4gdW4gc2NhdHRlcl9wbG90IGxhcyBwcmVkaWNjaW9uZXMgZGUgY2FkYSBtb2RlbG8gY29uIGxvcyB2YWxvcmVzIHJlYWxlcwoKYGBge3J9CgojIyMKCmBgYAoK