Ejercicio Práctico parte II - Estudio de Caso
Evaluación de Introducción a R y estadística
- En este ejercicio, seguiremos trabajando con el conjunto de datos de la Organización Mundial de la Salud (OMS) sobre la incidencia de enfermedades en diferentes países.
- Si ya obtuviste los datos limpios, puedes continuar con el siguiente paso.
- Tus datos limpios deberían verse de la siguiente manera. En este ejercicio, los datos limpios ya están cargados en la variable
oms_limpio
.
- Con estos datos limpios, podríamos comenzar a contestar preguntar sobre nuestros datos: ¿Cuál es el país y año que más casos nuevos registró?, ¿Cuál es el país y año con más casos de recaída?, ¿Hay más casos de tb en hombres o mujeres?, entre otras preguntas.
- Este tipo de preguntas se verán hasta el tema de pruebas de hipótesis, pero por ahora, nos enfocaremos en la exploración de datos y visualización. por ahora, solo queremos ver tendencias, patrones y relaciones en nuestros datos.
- Vamos a visualizar cómo han cambiado los casos de tuberculosis en los últimos años. Nos interesa ver las tendencias por país y año.
Antes de comenzar
- ¿Cuántos países hay en nuestros datos?
Solución
%>%
oms_limpio distinct(pais) %>%
count()
- Como ves, son muchos países. Para facilitar el análisis, vamos a filtrar para trabajar solo con algunos países: “México”, “Canadá”, “Bolivia”, “Guatemala”, “Estados Unidos”.
Exploración de datos
- Vamos a filtrar y graficar los datos de los países seleccionados.
- Nos interesa ver la tendencia de los casos de tuberculosis a través de los años.
- ¿Cómo podemos ver tendencias en los datos? ¿Qué tipo de gráfico nos permitiría ver esto?
- Sugerencia:
- Podríamos usar un gráfico de líneas para ver la tendencia de los casos de tuberculosis a través de los años. Muchas veces en conveniente juntar el gráfico de líneas con un gráfico de puntos para ver mejor la tendencia.
- ¿Cómo se llama el
geom
que se usa para hacer gráficos de líneas en ggplot? - ¿Qué variables usarías en los ejes
x
yy
? ¿Qué variable usarías para el color? ¿qué tipo de variables son estas? - Sugerencia:
- En el eje
x
, podrías poner el año. - En el eje
y
, podrías poner la cantidad de casos. - Para el color, podrías poner el país.
- En el eje
- NOTA: Para agilizar el análisis, vamos a hacer todo en un paso utilizando pipas: tomamos los datos limpios -> filtramos los países -> graficamos. Recuerda que para hacer esto, usamos el operador
%>%
y para ggplot, usamos el operador+
para agregar capas al gráfico. - Vamos a ver el primer ejemplo juntos:
- ¿Cuál es el problema con el gráfico anterior?
- Como ves, tenemos muchas observaciones por cada país y año. Esto hace que el gráfico sea difícil de interpretar.
- ¿Qué podríamos hacer para solucionar esto?
- Sugerencia:
- Podríamos agrupar los datos por país y año, y promediar los casos de tuberculosis. (también podríamos sumar los casos con
sum
, ambos son válidos). - De esta manera, tendríamos una sola observación por país y año: el promedio de casos de tuberculosis en ese año en cada país.
- Podríamos agrupar los datos por país y año, y promediar los casos de tuberculosis. (también podríamos sumar los casos con
- Completa el gráfico, agrupando los datos por país y año y promediando los casos de tuberculosis:
Solución
%>%
oms_limpio filter(pais %in% c("México", "Canadá", "Bolivia", "Guatemala", "Estados Unidos")) %>%
group_by(anio, pais) %>%
summarise(ncasos = mean(valor)) %>%
ggplot(aes(x = anio, y = ncasos, color = pais)) +
geom_line() +
geom_point()
- ¿Qué puedes observar en el gráfico?
- Claramente hay un país que tiene muchos más casos de tuberculosis que los demás. ¿Cuál es este país?
- Por último, grafica el número total de casos de tuberculosis por país. ¿Qué tipo de gráfico usarías para esto? ¿Qué variables usarías en los ejes
x
yy
? ¿Qué variable usarías para el color? ¿Qué tipo de variables son estas? - Sugerencia:
- Podrías usar un gráfico de barras para ver el número total de casos de tuberculosis por país.
- ¿Cómo se llama el
geom
que se usa para hacer gráficos de barras en ggplot? Recuerda que tenemos dos formas de hacer gráficos de barras:geom_col
ygeom_bar
. ¿Cuál usarías en este caso? - ¿Qué variables usarías en los ejes
x
yy
? ¿Qué variable usarías para el color? ¿qué tipo de variables son estas? - Sugerencia:
- En el eje
x
, podrías poner el país. - En el eje
y
, podrías poner el número total de casos. Estos casos los puedes obtener sumando los casos de tuberculosis en cada país. - Para el color, podrías poner el país. Recuerda que en geom_col, si queremos que las barras tengan un color diferente por cada país, usamos fill para el “relleno” y color para el “borde” de las barras.
- En el eje
Solución
%>%
oms_limpio filter(pais %in% c("México", "Canadá", "Bolivia", "Guatemala", "Estados Unidos")) %>%
group_by(anio, pais) %>%
summarise(ncasos = sum(valor)) %>%
ggplot(aes(x = pais, y = ncasos, fill = pais)) +
geom_col()
- Sigue siendo evidente que un país tiene muchos más casos de tuberculosis que los demás.
- Sin embargo, esto puede deberse a muchas razones:
- población del país: a mayor población, esperamos mayor número de casos.
- calidad de los servicios de salud: a mejor calidad de los servicios de salud, esperamos menor número de casos.
- la calidad de los datos: es posible que un país tenga un mayor registro de datos que otro. En este caso, podríamos tener un sesgo en los datos.
- entre otras razones.
- En lo que queda del curso, vamos a ver cómo podemos responder a estas preguntas y cómo podemos hacer inferencias sobre nuestros datos.
- En las siguientes lecciones, veremos cómo podemos hacer pruebas de hipótesis para responder preguntas como: ¿hay una diferencia significativa en el número de casos de tuberculosis entre hombres y mujeres?, ¿hay una diferencia significativa en el número de casos de tuberculosis entre países? Este tipo de preguntas son muy comunes en la investigación científica y en la toma de decisiones basada en datos.
- Por ahora, sigue practicando con tus datos y familiarizándote con las funciones de R y los paquetes de tidyverse. Trata de tomar datos de diferentes fuentes (preferentemente de tu tesis o trabajo) y practica lo que has aprendido en este curso: limpia tus datos, explóralos y visualízalos.