Mi intención es usar datos abiertos para explorar la diferencia entre mujeres y hombres respecto a los indicadores de educación.

Este es mi primer intento y me encantaría contactarme con más personas para que este proyecto crezca. Cualquier comentario o sugerencia es más que bienvenida.

Si no educamos a las niñas de nuestro país, cómo esperamos que puedan emanciparse y defenderse de un problema sistémico como el machismo?

1 Sobre los datos

Para realizar los gráficos que presento a continuación utilicé datos que se encuentran libres y disponibles en la página datosabiertos.bo.

Todos los archivos se encuentran en el sgte. repositorio.

Los datos crudos se encuentran en la carpeta 00_datos_crudos y el código para limpiar los datos se encuentra en el archivo 01_R, limpieza_datos.R, guardé los datos ya procesados en el archivo 02_datos_limpios.

Para los gráficos que realizo en este archivo, utilizo los datos censo.csv.

Las librerías que utilizo para todo el análisis son las siguientes:

library(rio)
library(here)
library(tidyverse)
library(tidytext)
library(plotly)
library(ggridges)

Primero importemos los datos limpios:

censo <- import(here("02_datos_limpios", "censo.csv"))

El archivo censo tiene información en los indicadores para 339 municipios de los 9 departamentos. Trabajaremos por municipio y resumiremos la información de los municipios por provincia.

2 Indicadores

Evaluaremos 3 indicadores:

  • Taza de alfabetización en mayores de 15 años

  • Taza de asistencia escolar en población de 6 a 19 años

  • Promedio del total de años de estudio en mayores de 19 años.

2.1 Indicador: Taza de alfabetización en mayores de 15 años

Primero vamos a estructurar los datos para el análisis.

taza_alfab <- censo %>% 
  rename(
    hombres = `h_>15`,
    mujeres = `m_>15`) %>% 
  select(depto, provincia, municipio, hombres, mujeres) %>% 
  pivot_longer(
    cols = -c(1:3),
    names_to = "sexo",
    values_to = "taza_alfab"
  ) %>% 
  mutate(taza_alfab = round(taza_alfab, 2),
         sexo = str_to_title(sexo))

2.1.1 Distribución

Primero veremos la distribución de la taza de alfabetización en los municipios para cada departamento.

distribucion_taza_alfab <- taza_alfab %>% 
  ggplot(aes(taza_alfab, depto, fill = sexo)) +
  geom_density_ridges(alpha = 0.8) +
  scale_fill_manual(values = c("#d11141", "#00b159" )) +
  theme_minimal() +
    labs(
    title = "Taza de alfabetización por departamento,\npara población mayor a 15 años",
    caption = "Fuente: Censo 2012, INE",
    x= "",
    y = "Taza de alfabetización (%)"
  ) +
  theme(
    legend.title = element_blank(),
    legend.position = "bottom")

distribucion_taza_alfab

A partir de este gráfico podemos observar que:

  • Hay una diferencia en la taza de alfabetización entre hombres y mujeres mayores a 15 años.

  • Hay departamentos con una taza de alfabetización más alta que otros.

  • Dentro de cada departamento, la taza de alfabetización varia entre municipios, y la variación es mayor para las mujeres.

2.1.2 Diferencia en la taza de alfabetización en hombres y mujeres mayores a 15 años, por municipio

El gráfico siguiente nos ayudará a ver cómo varía la taza de alfabetización en hombres y mujeres, por municipio y departamento.

grafico_dif <- taza_alfab %>% 
  ggplot(aes(sexo, taza_alfab, group = municipio)) +
  scale_color_manual(values = c("#d11141", "#00b159")) +
  geom_line(color = "#ffc425") +
  geom_point(aes(color = sexo)) +
  facet_wrap(.~depto) +
  theme_minimal() +
  labs(title = "Taza de alfabetización por departamento y municipio en mayores a 15 años",
       x = "",
       y = "Taza de alfabetización (%)",
       caption = "Datos de INE") +
    theme(
    legend.title = element_blank(),
    legend.position = "bottom")

ggplotly(grafico_dif)

Algunos datos llamativos del gráfico son:

  • En cada municipio, la taza de alfabetización en hombres es mayor que para las mujeres.

  • La diferencia en la taza de alfabetización entre hombres y mujeres mayores a 15 años por municipio, es más evidente para algunos departamentos.

2.1.3 Taza de alfabetización para hombres y mujeres, por provincia y departamento

Debido a que existen varios municipios por provincia, resumiremos la información de los municipios obteniendo el promedio de la taza de alfabetización por provincia.

grafico_lolipop <- taza_alfab %>% 
  group_by(depto, provincia, sexo) %>% 
  summarize(media_alfab = round(mean(taza_alfab),2)) %>% 
  ungroup() %>% 
  mutate(provincia = reorder_within(provincia, media_alfab, depto)) %>% 
  pivot_wider(
    names_from = sexo,
    values_from = media_alfab) %>% 
  ggplot() +
  geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
  geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
  geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
  coord_flip() +
  facet_wrap(.~depto, scale = "free_y") +
  theme_minimal() +
  theme(axis.text.y=element_blank(),
        axis.ticks.y=element_blank()) +
  labs(
    title = "Taza de alfabetización promedio por provincia para mayores a 15 años \n\n",
    caption = "Fuente: Censo 2012, INDEC",
    x= "Provincias",
    y = "Taza de alfabetización promedio (%)"
  ) 

ggplotly(grafico_lolipop)

Evidentemente hay una diferencia importente en la taza de alfabetización en mayores de 15 años para mujeres y hombres, en todas las provincias y departamentos de Bolivia.

2.2 Indicador: Taza de asistencia escolar en población de 6 a 19 años

Primero vamos a estructurar los datos para el análisis.

taza_asistencia <- censo %>% 
  rename(
    hombres = `h_ae(6_19)`,
    mujeres = `m_ae(6_19)`) %>% 
  select(depto, provincia, municipio, hombres, mujeres) %>% 
  pivot_longer(
    cols = -c(1:3),
    names_to = "sexo",
    values_to = "taza_ae"
  ) %>% 
  mutate(taza_ae = round(taza_ae, 2),
         sexo = str_to_title(sexo))

2.2.1 Distribución de la asistencia escolar por departamento

distribucion_taza_asistescolar <- taza_asistencia %>%
  ggplot(aes(taza_ae, depto, fill = sexo)) +
  geom_density_ridges(alpha = 0.5) +
  scale_fill_manual(values = c("#d11141", "#00b159")) +
  theme_minimal() +
  labs(
    title = "Taza de asistencia escolar por departamento para población entre 6 y 19 años",
    caption = "Fuente: Censo 2012, INE",
    x = "",
    y = "Taza de asistencia escolar (%)"
  ) +
  theme(legend.title = element_blank(),
        legend.position = "bottom")

distribucion_taza_asistescolar

A partir del gráfico observamos lo siguiente:

  • La distribución de la asistencia escolar es más homogenea entre hombres y mujeres.

  • Oruro tiene municipios con asistencia escolar menor al 40% para hombres.

2.2.2 Diferencia en la taza de asistencia escolar por municipio

Ya que hay municipios donde la taza de asistencia escolar es mayor para niños que para niñas, y otros municipios dónde la diferencia es opuesta, generamos una variable para diferenciar los municipios dónde la taza de asistencia es mayor en niños que en niñas (líneas amarillas) y los municipios dónde la taza de asistencia escolar es mayor en niñas que en niños (líneas mostaza discontinuas).

grafico_dif_ae <- taza_asistencia %>% 
  pivot_wider(
    names_from = sexo,
    values_from = taza_ae) %>% 
  mutate(dif = Hombres - Mujeres,
         dif = ifelse(dif < 0, "menor", "mayor")) %>%
  pivot_longer(
    cols = c(Hombres, Mujeres),
    names_to = "sexo",
    values_to = "taza_ae") %>% 
  ggplot(aes(sexo, taza_ae, group = municipio)) +
  scale_color_manual(values = c("#d11141", "#ffc425",
                                "#b28919","#00b159")) +
  geom_path(aes(linetype = dif,
                color = dif), 
            show.legend = FALSE) +
  geom_point(aes(color = sexo)) +
  facet_wrap(.~depto) +
  theme_minimal() +
  labs(title = "Taza de asistencia escolar por departamento y municipio en mayores a 15 años",
       x = "",
       y = "Taza de asistencia escolar (%)",
       caption = "Datos de INE") +
    theme(legend.position = "none")

ggplotly(grafico_dif_ae)

2.2.3 Taza de asistencia escolar para hombres y mujeres, por provincia y departamento

Debido a que existen varios municipios por provincia, resumiremos la información de los municipios obteniendo el promedio de la taza de alfabetización por provincia.

lolipop_ae <- taza_asistencia %>% 
  group_by(depto, provincia, sexo) %>% 
  summarize(media_ae = round(mean(taza_ae),2)) %>% 
  ungroup() %>% 
  mutate(provincia = reorder_within(provincia, media_ae, depto)) %>% 
  pivot_wider(
    names_from = sexo,
    values_from = media_ae) %>% 
  ggplot() +
  geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
  geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
  geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
  coord_flip() +
  facet_wrap(.~depto, scale = "free_y") +
  theme_minimal() +
  theme(axis.text.y=element_blank(),
        axis.ticks.y=element_blank()) +
  labs(
    title = "Taza de asistencia escolar promedio por provincia para mayores a 15 años",
    caption = "Fuente: Censo 2012, INDEC",
    x= "Provincias",
    y = "Taza de asistencia escolar promedio (%)"
  ) 

ggplotly(lolipop_ae)

2.3 Indicador: Promedio del total de años de estudio en mayores de 19 años.

2.3.1 Distribución

promedio_educ <- 
censo %>% 
  rename(
    hombres = h_aest,
    mujeres = m_aest) %>% 
  select(depto, provincia, municipio, hombres, mujeres) %>% 
  pivot_longer(
    cols = -c(1:3),
    names_to = "sexo",
    values_to = "prom_estudios"
  ) %>% 
  mutate(prom_estudios = round(prom_estudios, 2),
         sexo = str_to_title(sexo))
distribucion_educacion <- promedio_educ %>% 
  ggplot(aes(prom_estudios, depto, fill = sexo)) +
  geom_density_ridges(alpha = 0.8) +
  scale_fill_manual(values = c("#d11141", "#00b159" )) +
  theme_minimal() +
    labs(
    title = "Promedio de años de educación por departamento,\npara población mayor a 19 años",
    caption = "Fuente: Censo 2012, INE",
    x= "",
    y = "Promedio de años de estudio"
  ) +
  theme(
    legend.title = element_blank(),
    legend.position = "bottom")

distribucion_educacion

2.3.2 Diferencia en el promedio de años de educación municipio

dif_prom_educ <- promedio_educ %>% 
  pivot_wider(
    names_from = sexo,
    values_from = prom_estudios) %>% 
  mutate(dif = Hombres - Mujeres,
         dif = ifelse(dif < 0, "menor", "mayor")) %>%
  pivot_longer(
    cols = c(Hombres, Mujeres),
    names_to = "sexo",
    values_to = "promedio_educ") %>% 
  ggplot(aes(sexo, promedio_educ, group = municipio)) +
  scale_color_manual(values = c("#d11141", "#ffc425",
                                "#b28919","#00b159")) +
  geom_path(aes(linetype = dif,
                color = dif), 
            show.legend = FALSE) +
  geom_point(aes(color = sexo)) +
  facet_wrap(.~depto) +
  theme_minimal() +
  labs(title = "Promedio de años de estudio por departamento y municipio en mayores a 19 años",
       x = "",
       y = "Promedio de años de estudio",
       caption = "Datos de INE") +
    theme(legend.position = "none")

ggplotly(dif_prom_educ)

2.3.3 Promedio de años de estudio por municipio

prom_educ_lolipop <- promedio_educ %>% 
  group_by(depto, provincia, sexo) %>% 
  summarize(media_estudios = round(mean(prom_estudios),2)) %>% 
  ungroup() %>% 
  mutate(provincia = reorder_within(provincia, media_estudios, depto)) %>% 
  pivot_wider(
    names_from = sexo,
    values_from = media_estudios) %>% 
  ggplot() +
  geom_segment(aes(x = provincia, xend = provincia, y = Mujeres, yend = Hombres), color = "#ffc425") +
  geom_point(aes(x = provincia, y = Mujeres), color = "#d11141", size = 1.5) +
  geom_point(aes(x = provincia, y = Hombres), color = "#00b159", size = 1.5) +
  coord_flip() +
  facet_wrap(.~depto, scale = "free_y") +
  theme_minimal() +
  theme(axis.text.y=element_blank(),
        axis.ticks.y=element_blank()) +
  labs(
    title = "Promedio del total de años de estudio en mayores de 19 años por provincia ",
    caption = "Fuente: Censo 2012, INDEC",
    x= "Provincias",
    y = "Promedio de años de estudio (%)"
  ) 

ggplotly(prom_educ_lolipop)