Ejercicio Práctico parte II - Estudio de Caso

Evaluación de Introducción a R y estadística

Author
Affiliation

Mtro. Santiago Ríos

Antes de comenzar

  • ¿Cuántos países hay en nuestros datos?
Solución
oms_limpio %>%
  distinct(pais) %>% 
  count()
  • Como ves, son muchos países. Para facilitar el análisis, vamos a filtrar para trabajar solo con algunos países: “México”, “Canadá”, “Bolivia”, “Guatemala”, “Estados Unidos”.

Exploración de datos

  • Vamos a filtrar y graficar los datos de los países seleccionados.
  • Nos interesa ver la tendencia de los casos de tuberculosis a través de los años.
  • ¿Cómo podemos ver tendencias en los datos? ¿Qué tipo de gráfico nos permitiría ver esto?
  • Sugerencia:
    • Podríamos usar un gráfico de líneas para ver la tendencia de los casos de tuberculosis a través de los años. Muchas veces en conveniente juntar el gráfico de líneas con un gráfico de puntos para ver mejor la tendencia.
    • ¿Cómo se llama el geom que se usa para hacer gráficos de líneas en ggplot?
    • ¿Qué variables usarías en los ejes x y y? ¿Qué variable usarías para el color? ¿qué tipo de variables son estas?
    • Sugerencia:
      • En el eje x, podrías poner el año.
      • En el eje y, podrías poner la cantidad de casos.
      • Para el color, podrías poner el país.
  • NOTA: Para agilizar el análisis, vamos a hacer todo en un paso utilizando pipas: tomamos los datos limpios -> filtramos los países -> graficamos. Recuerda que para hacer esto, usamos el operador %>% y para ggplot, usamos el operador + para agregar capas al gráfico.
  • Vamos a ver el primer ejemplo juntos:
  • ¿Cuál es el problema con el gráfico anterior?
  • Como ves, tenemos muchas observaciones por cada país y año. Esto hace que el gráfico sea difícil de interpretar.
  • ¿Qué podríamos hacer para solucionar esto?
  • Sugerencia:
    • Podríamos agrupar los datos por país y año, y promediar los casos de tuberculosis. (también podríamos sumar los casos con sum, ambos son válidos).
    • De esta manera, tendríamos una sola observación por país y año: el promedio de casos de tuberculosis en ese año en cada país.
  • Completa el gráfico, agrupando los datos por país y año y promediando los casos de tuberculosis:
Solución
oms_limpio %>%
  filter(pais %in% c("México", "Canadá", "Bolivia", "Guatemala", "Estados Unidos")) %>%
  group_by(anio, pais) %>%
  summarise(ncasos = mean(valor)) %>%
  ggplot(aes(x = anio, y = ncasos, color = pais)) +
  geom_line() +
  geom_point()
  • ¿Qué puedes observar en el gráfico?
  • Claramente hay un país que tiene muchos más casos de tuberculosis que los demás. ¿Cuál es este país?
  • Por último, grafica el número total de casos de tuberculosis por país. ¿Qué tipo de gráfico usarías para esto? ¿Qué variables usarías en los ejes x y y? ¿Qué variable usarías para el color? ¿Qué tipo de variables son estas?
  • Sugerencia:
    • Podrías usar un gráfico de barras para ver el número total de casos de tuberculosis por país.
    • ¿Cómo se llama el geom que se usa para hacer gráficos de barras en ggplot? Recuerda que tenemos dos formas de hacer gráficos de barras: geom_col y geom_bar. ¿Cuál usarías en este caso?
    • ¿Qué variables usarías en los ejes x y y? ¿Qué variable usarías para el color? ¿qué tipo de variables son estas?
    • Sugerencia:
      • En el eje x, podrías poner el país.
      • En el eje y, podrías poner el número total de casos. Estos casos los puedes obtener sumando los casos de tuberculosis en cada país.
      • Para el color, podrías poner el país. Recuerda que en geom_col, si queremos que las barras tengan un color diferente por cada país, usamos fill para el “relleno” y color para el “borde” de las barras.
Solución
oms_limpio %>%
  filter(pais %in% c("México", "Canadá", "Bolivia", "Guatemala", "Estados Unidos")) %>%
  group_by(anio, pais) %>%
  summarise(ncasos = sum(valor)) %>%
  ggplot(aes(x = pais, y = ncasos, fill = pais)) +
  geom_col()
  • Sigue siendo evidente que un país tiene muchos más casos de tuberculosis que los demás.
  • Sin embargo, esto puede deberse a muchas razones:
    • población del país: a mayor población, esperamos mayor número de casos.
    • calidad de los servicios de salud: a mejor calidad de los servicios de salud, esperamos menor número de casos.
    • la calidad de los datos: es posible que un país tenga un mayor registro de datos que otro. En este caso, podríamos tener un sesgo en los datos.
    • entre otras razones.
  • En lo que queda del curso, vamos a ver cómo podemos responder a estas preguntas y cómo podemos hacer inferencias sobre nuestros datos.
  • En las siguientes lecciones, veremos cómo podemos hacer pruebas de hipótesis para responder preguntas como: ¿hay una diferencia significativa en el número de casos de tuberculosis entre hombres y mujeres?, ¿hay una diferencia significativa en el número de casos de tuberculosis entre países? Este tipo de preguntas son muy comunes en la investigación científica y en la toma de decisiones basada en datos.
  • Por ahora, sigue practicando con tus datos y familiarizándote con las funciones de R y los paquetes de tidyverse. Trata de tomar datos de diferentes fuentes (preferentemente de tu tesis o trabajo) y practica lo que has aprendido en este curso: limpia tus datos, explóralos y visualízalos.