Mi intención es usar datos abiertos para explorar la diferencia entre mujeres y hombres respecto a los indicadores de educación.
Este es mi primer intento y me encantaría contactarme con más personas para que este proyecto crezca. Cualquier comentario o sugerencia es más que bienvenida.
Si no educamos a las niñas de nuestro país, cómo esperamos que puedan emanciparse y defenderse de un problema sistémico como el machismo?
Para realizar los gráficos que presento a continuación utilicé datos que se encuentran libres y disponibles en la página datosabiertos.bo.
Todos los archivos se encuentran en el sgte. repositorio.
Los datos crudos se encuentran en la carpeta 00_datos_crudos
y el código para limpiar los datos se encuentra en el archivo 01_R
, limpieza_datos.R
, guardé los datos ya procesados en el archivo 02_datos_limpios
.
Para los gráficos que realizo en este archivo, utilizo los datos censo.csv
.
Las librerías que utilizo para todo el análisis son las siguientes:
library(rio)
library(here)
library(tidyverse)
library(tidytext)
library(plotly)
library(ggridges)
Primero importemos los datos limpios:
censo <- import(here("02_datos_limpios", "censo.csv"))
El archivo censo
tiene información en los indicadores para 339 municipios de los 9 departamentos. Trabajaremos por municipio y resumiremos la información de los municipios por provincia.
Evaluaremos 3 indicadores:
Taza de alfabetización en mayores de 15 años
Taza de asistencia escolar en población de 6 a 19 años
Promedio del total de años de estudio en mayores de 19 años.
Primero vamos a estructurar los datos para el análisis.
taza_alfab <- censo %>%
rename(
hombres = `h_>15`,
mujeres = `m_>15`) %>%
select(depto, provincia, municipio, hombres, mujeres) %>%
pivot_longer(
cols = -c(1:3),
names_to = "sexo",
values_to = "taza_alfab"
) %>%
mutate(taza_alfab = round(taza_alfab, 2),
sexo = str_to_title(sexo))
Primero veremos la distribución de la taza de alfabetización en los municipios para cada departamento.
distribucion_taza_alfab <- taza_alfab %>%
ggplot(aes(taza_alfab, depto, fill = sexo)) +
geom_density_ridges(alpha = 0.8) +
scale_fill_manual(values = c("#d11141", "#00b159" )) +
theme_minimal() +
labs(
title = "Taza de alfabetización por departamento,\npara población mayor a 15 años",
caption = "Fuente: Censo 2012, INE",
x= "",
y = "Taza de alfabetización (%)"
) +
theme(
legend.title = element_blank(),
legend.position = "bottom")
distribucion_taza_alfab
A partir de este gráfico podemos observar que:
Hay una diferencia en la taza de alfabetización entre hombres y mujeres mayores a 15 años.
Hay departamentos con una taza de alfabetización más alta que otros.
Dentro de cada departamento, la taza de alfabetización varia entre municipios, y la variación es mayor para las mujeres.
El gráfico siguiente nos ayudará a ver cómo varía la taza de alfabetización en hombres y mujeres, por municipio y departamento.
grafico_dif <- taza_alfab %>%
ggplot(aes(sexo, taza_alfab, group = municipio)) +
scale_color_manual(values = c("#d11141", "#00b159")) +
geom_line(color = "#ffc425") +
geom_point(aes(color = sexo)) +
facet_wrap(.~depto) +
theme_minimal() +
labs(title = "Taza de alfabetización por departamento y municipio en mayores a 15 años",
x = "",
y = "Taza de alfabetización (%)",
caption = "Datos de INE") +
theme(
legend.title = element_blank(),
legend.position = "bottom")
ggplotly(grafico_dif)
Algunos datos llamativos del gráfico son:
En cada municipio, la taza de alfabetización en hombres es mayor que para las mujeres.
La diferencia en la taza de alfabetización entre hombres y mujeres mayores a 15 años por municipio, es más evidente para algunos departamentos.
Debido a que existen varios municipios por provincia, resumiremos la información de los municipios obteniendo el promedio de la taza de alfabetización por provincia.
grafico_lolipop <- taza_alfab %>%
group_by(depto, provincia, sexo) %>%
summarize(media_alfab = round(mean(taza_alfab),2)) %>%
ungroup() %>%
mutate(provincia = reorder_within(provincia, media_alfab, depto)) %>%
pivot_wider(
names_from = sexo,
values_from = media_alfab) %>%
ggplot() +
geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
coord_flip() +
facet_wrap(.~depto, scale = "free_y") +
theme_minimal() +
theme(axis.text.y=element_blank(),
axis.ticks.y=element_blank()) +
labs(
title = "Taza de alfabetización promedio por provincia para mayores a 15 años \n\n",
caption = "Fuente: Censo 2012, INDEC",
x= "Provincias",
y = "Taza de alfabetización promedio (%)"
)
ggplotly(grafico_lolipop)
Evidentemente hay una diferencia importente en la taza de alfabetización en mayores de 15 años para mujeres y hombres, en todas las provincias y departamentos de Bolivia.
Primero vamos a estructurar los datos para el análisis.
taza_asistencia <- censo %>%
rename(
hombres = `h_ae(6_19)`,
mujeres = `m_ae(6_19)`) %>%
select(depto, provincia, municipio, hombres, mujeres) %>%
pivot_longer(
cols = -c(1:3),
names_to = "sexo",
values_to = "taza_ae"
) %>%
mutate(taza_ae = round(taza_ae, 2),
sexo = str_to_title(sexo))
distribucion_taza_asistescolar <- taza_asistencia %>%
ggplot(aes(taza_ae, depto, fill = sexo)) +
geom_density_ridges(alpha = 0.5) +
scale_fill_manual(values = c("#d11141", "#00b159")) +
theme_minimal() +
labs(
title = "Taza de asistencia escolar por departamento para población entre 6 y 19 años",
caption = "Fuente: Censo 2012, INE",
x = "",
y = "Taza de asistencia escolar (%)"
) +
theme(legend.title = element_blank(),
legend.position = "bottom")
distribucion_taza_asistescolar
A partir del gráfico observamos lo siguiente:
La distribución de la asistencia escolar es más homogenea entre hombres y mujeres.
Oruro tiene municipios con asistencia escolar menor al 40% para hombres.
Ya que hay municipios donde la taza de asistencia escolar es mayor para niños que para niñas, y otros municipios dónde la diferencia es opuesta, generamos una variable para diferenciar los municipios dónde la taza de asistencia es mayor en niños que en niñas (líneas amarillas) y los municipios dónde la taza de asistencia escolar es mayor en niñas que en niños (líneas mostaza discontinuas).
grafico_dif_ae <- taza_asistencia %>%
pivot_wider(
names_from = sexo,
values_from = taza_ae) %>%
mutate(dif = Hombres - Mujeres,
dif = ifelse(dif < 0, "menor", "mayor")) %>%
pivot_longer(
cols = c(Hombres, Mujeres),
names_to = "sexo",
values_to = "taza_ae") %>%
ggplot(aes(sexo, taza_ae, group = municipio)) +
scale_color_manual(values = c("#d11141", "#ffc425",
"#b28919","#00b159")) +
geom_path(aes(linetype = dif,
color = dif),
show.legend = FALSE) +
geom_point(aes(color = sexo)) +
facet_wrap(.~depto) +
theme_minimal() +
labs(title = "Taza de asistencia escolar por departamento y municipio en mayores a 15 años",
x = "",
y = "Taza de asistencia escolar (%)",
caption = "Datos de INE") +
theme(legend.position = "none")
ggplotly(grafico_dif_ae)
Debido a que existen varios municipios por provincia, resumiremos la información de los municipios obteniendo el promedio de la taza de alfabetización por provincia.
lolipop_ae <- taza_asistencia %>%
group_by(depto, provincia, sexo) %>%
summarize(media_ae = round(mean(taza_ae),2)) %>%
ungroup() %>%
mutate(provincia = reorder_within(provincia, media_ae, depto)) %>%
pivot_wider(
names_from = sexo,
values_from = media_ae) %>%
ggplot() +
geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
coord_flip() +
facet_wrap(.~depto, scale = "free_y") +
theme_minimal() +
theme(axis.text.y=element_blank(),
axis.ticks.y=element_blank()) +
labs(
title = "Taza de asistencia escolar promedio por provincia para mayores a 15 años",
caption = "Fuente: Censo 2012, INDEC",
x= "Provincias",
y = "Taza de asistencia escolar promedio (%)"
)
ggplotly(lolipop_ae)
promedio_educ <-
censo %>%
rename(
hombres = h_aest,
mujeres = m_aest) %>%
select(depto, provincia, municipio, hombres, mujeres) %>%
pivot_longer(
cols = -c(1:3),
names_to = "sexo",
values_to = "prom_estudios"
) %>%
mutate(prom_estudios = round(prom_estudios, 2),
sexo = str_to_title(sexo))
distribucion_educacion <- promedio_educ %>%
ggplot(aes(prom_estudios, depto, fill = sexo)) +
geom_density_ridges(alpha = 0.8) +
scale_fill_manual(values = c("#d11141", "#00b159" )) +
theme_minimal() +
labs(
title = "Promedio de años de educación por departamento,\npara población mayor a 19 años",
caption = "Fuente: Censo 2012, INE",
x= "",
y = "Promedio de años de estudio"
) +
theme(
legend.title = element_blank(),
legend.position = "bottom")
distribucion_educacion
dif_prom_educ <- promedio_educ %>%
pivot_wider(
names_from = sexo,
values_from = prom_estudios) %>%
mutate(dif = Hombres - Mujeres,
dif = ifelse(dif < 0, "menor", "mayor")) %>%
pivot_longer(
cols = c(Hombres, Mujeres),
names_to = "sexo",
values_to = "promedio_educ") %>%
ggplot(aes(sexo, promedio_educ, group = municipio)) +
scale_color_manual(values = c("#d11141", "#ffc425",
"#b28919","#00b159")) +
geom_path(aes(linetype = dif,
color = dif),
show.legend = FALSE) +
geom_point(aes(color = sexo)) +
facet_wrap(.~depto) +
theme_minimal() +
labs(title = "Promedio de años de estudio por departamento y municipio en mayores a 19 años",
x = "",
y = "Promedio de años de estudio",
caption = "Datos de INE") +
theme(legend.position = "none")
ggplotly(dif_prom_educ)
prom_educ_lolipop <- promedio_educ %>%
group_by(depto, provincia, sexo) %>%
summarize(media_estudios = round(mean(prom_estudios),2)) %>%
ungroup() %>%
mutate(provincia = reorder_within(provincia, media_estudios, depto)) %>%
pivot_wider(
names_from = sexo,
values_from = media_estudios) %>%
ggplot() +
geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
coord_flip() +
facet_wrap(.~depto, scale = "free_y") +
theme_minimal() +
theme(axis.text.y=element_blank(),
axis.ticks.y=element_blank()) +
labs(
title = "Promedio del total de años de estudio en mayores de 19 años por provincia ",
caption = "Fuente: Censo 2012, INDEC",
x= "Provincias",
y = "Promedio de años de estudio (%)"
)
ggplotly(prom_educ_lolipop)