La siguiente tabla nos resume la condición de actividad en función del sexo.
ESTADO | Mujer | Varon | Total |
---|---|---|---|
Desocupado | 854 | 883 | 1737 |
Inactivo | 12147 | 7618 | 19765 |
Ocupado | 8485 | 10923 | 19408 |
Total | 21486 | 19424 | 40910 |
Cada valor en la tabla (celda) representa la cantidad de veces que una combinación particular de valores ocurrieron. Asi, Por ejemplo, la tabla nos dice que hubo 12.147 personas inactivas que eran mujeres. Los totales de columna proveen información sobre el total de casos para cada columna y lo propio sucede con los totales de fila-
Otra forma común de representar esto es mediante un gráfico “facetado”:
El gráfico anterior nos muestra la misma información que la tabla: cada panel es una de las columnas de la tabla, en el eje X encontramos las filas de la tabla y en el eje Y el conteo de valores. Sin embargo, falta algo…
Podemos mostrar las distribuciones de dos variables categóricas en un gráfico de barras al mismo tiempo. Estos gráficos suelen ser útiles para visualizar la relación entre dos variables categóricas. La figura siguiente muestra tres gráficos de este tipo que visualizan la relación entre sexo y condición de actividad. El siguiente es un gráfico de barras apiladas:
Este gráfico muestra que las mujeres son más que los varones. Es difícil decir, basándose únicamente en este diagrama, cómo las diferentes condiciones de actividad varían según sexo. Pareciera ser que los varones están ocupadas en mayor medida.
La gráfica B es una gráfica de barras “desplazadas”.
Este gráfico muestra claramente que dentro de cada sexo la principal forma de actividad es diferente: ocupados en varones, inactivas en mujeres.
Finalmente, el gráfico C es un gráfico de barras estandarizado (también conocido como gráfico de barras rellenas).
Este gráfico muestra con mayor claridad que la condición de actividad más común entre mujeres es la inactividad y entre los varones la ocupación. A su vez, la proporción de desocupados es muy similar entre varones y mujeres.
El gráfico de barras apiladas es más útil cuando es razonable asignar
una variable como variable explicativa (aquí, sexo CH04
) y
la otra variable como respuesta (aquí, condición de actividad
ESTADO
), ya que estamos agrupando primero por una variable
y luego separándola por las demás. .
Los diagramas de barras esquivadas son más agnósticos en su visualización sobre qué variable, si alguna, representa la variable explicativa y cuál la variable de respuesta. También es fácil discernir el número de casos en cada una de las seis combinaciones de grupos diferentes. Sin embargo, una desventaja es que tiende a requerir más espacio horizontal; la estrechez del segundo gráfico en comparación con las otras dos . Además, cuando dos grupos son de tamaños muy diferentes, como vemos en el propio grupo en relación con cualquiera de los otros dos grupos, es difícil discernir si existe una asociación entre las variables.
El gráfico de barras apiladas estandarizado es útil si la variable
principal en el gráfico de barras apiladas está relativamente
desequilibrada. En este caso la distribucion por CH04
no
está muy desequilibrada pero aún así resulta más complejo en ese gráfico
de barras apiladas simple verificar una asociación. La principal
desventaja de la versión estandarizada es que perdemos todo sentido de
cuántos casos representa cada una de las barras.
En las secciones anteriores, inspeccionamos visualizaciones de dos variables categóricas en gráficos de barras. Sin embargo, no hemos discutido cómo se calculan los valores. En esta sección investigaremos cómo calcular las diferentes proporciones en una tabla de contingencia.
La siguiente tabla muestra las proporciones por fila para la primera tabla que vimos antes. Las mismas se calculan como los conteos divididos por los totales de las filas.
El valor 12147 en la intersección de mujer e inactivo se reemplaza por: \(\frac{12147}{19765} = 0.615\). Entonces, ¿qué representa 0,615? Corresponde a la proporción de encuestades inactivas que son mujeres.
ESTADO | Mujer | Varon | Total |
---|---|---|---|
Desocupado | 0.492 | 0.508 | 1.000 |
Inactivo | 0.615 | 0.385 | 1.000 |
Ocupado | 0.437 | 0.563 | 1.000 |
Total | 0.525 | 0.475 | 1.000 |
Una tabla de contingencia con las proporciones por columnas se calcula de manera similar, donde cada una se calcula como el recuento dividido por el total de la columna correspondiente. La siguiente es una tabla de este tipo. Podemos ver, entonces, que el 56.5% de las mujeres son inactivas. Este valor es notablemente superior al de los varones (39.2%). A su vez, los varones tienen una mayor tasa de ocupación. Esto constituye evidencia de que las variables pueden estar asociadas.
ESTADO | Mujer | Varon | Total |
---|---|---|---|
Desocupado | 3.97% | 4.55% | 4.25% |
Inactivo | 56.53% | 39.22% | 48.31% |
Ocupado | 39.49% | 56.23% | 47.44% |
Total | 100.00% | 100.00% | 100.00% |
Las proporciones de fila y columna también pueden considerarse proporciones condicionales, ya que nos informan sobre la proporción de observaciones en un nivel dado de una variable categórica condicional en el nivel de otra variable categórica.
Algunas de las preguntas de investigación más interesantes surgen del análisis y la comparación de variables cuantitativas entre diferentes grupos. En esta sección, ampliaremos algunos métodos que ya hemos visto para hacer gráficos de datos numéricos de múltiples grupos, así como también presentaremos algunos métodos nuevos para comparar datos numéricos entre grupos.
Vamos a analizary comparar el ingreso total familiar promedio, la cantidad promedio de miembros por hogar y la edad promedio de la población en las 6 regiones que releva la EPH.
el conjunto de datos del condado y compararemos el ingreso familiar medio de los condados que aumentaron la población entre 2010 y 2017 con los condados que no aumentaron. Si bien nos gustaría hacer una conexión causal entre el ingreso y el crecimiento de la población, recuerde que estos son datos de observación y, por lo tanto, tal interpretación sería, en el mejor de los casos, a medias.
REGION | ifpc_medio | edad_media | cantidad_miembros |
---|---|---|---|
Patagonia | $33,004.26 | 33.34 | 3.89 |
Gran Buenos Aires | $28,254.60 | 34.60 | 4.07 |
Pampeana | $25,404.81 | 35.40 | 3.79 |
Cuyo | $22,260.37 | 34.64 | 4.08 |
Nordeste | $18,689.74 | 33.37 | 4.20 |
Noroeste | $18,367.42 | 33.25 | 4.62 |
Se observa que la Patagonia es la región que mayores ingresos per cápita muestra y de las de menores hogares. En contraste, la zona del Nordeste y Noroeste son las que menores ingresos per cápita familiares presentan y que mayores tamaños medios de hogar presentan.