Tips gráficos
Los gráficos permiten visualizar los patrones de medias y las interacciones entre factores. Los gráficos también ayudan a garantizar que los resultados estadísticos se puedan interpretar biológicamente.
Mejores Prácticas para Visualización de Datos
En la ciencia y en el análisis de datos, las visualizaciones son herramientas cruciales para comunicar hallazgos y patrones en los datos. Sin embargo, es fácil caer en trampas que resultan en gráficos engañosos o confusos. A continuación, describimos algunas de las prácticas recomendadas para evitar errores comunes en la visualización de datos.
1. Cuidado con el uso de Gráficos de Barras para Separación de Medias
Los gráficos de barras son una de las formas más comunes de representar datos en trabajos científicos, pero no son la mejor opción para mostrar la separación de medias entre diferentes grupos. El problema principal es que los gráficos de barras no muestran suficiente información sobre la dispersión de los datos, lo cual es crucial para interpretar correctamente los resultados.
Problemas de los gráficos de barras
- Ocultan la variabilidad: Los gráficos de barras muestran solo la media de cada grupo, sin mostrar la distribución completa de los datos ni cómo varían dentro de cada grupo.
- Difícil interpretación de la dispersión: Aunque se añadan barras de error, estas no son suficientes para representar la dispersión de los datos (como la varianza o los cuartiles).
- Para ejemplificar esto, considera este gráfico con datos simulados donde tenemos un grupo “A” con baja variabilidad y un grupo “B” con alta variabilidad. Ambos grupos tienen la misma media, pero la dispersión es muy diferente. Un gráfico de barras no reflejaría esta diferencia en la dispersión, lo que podría llevar a conclusiones erróneas sobre la similitud de los grupos.
Ejemplo:
- Como observas, el gráfico de barras da la ilusión que tenemos dos grupos similares. Sin embargo, observa que si graficamos los datos individuales, la diferencia en la dispersión es clara.
- Alternativas recomendadas en estos casos:
- Gráficos de puntos (dot plots): Muestran cada observación individual, proporcionando información detallada sobre la distribución de los datos.
- Gráficos de violín (violin plots): No solo muestran la mediana y la dispersión, sino también la distribución completa de los datos en cada grupo, lo que permite ver si los datos son simétricos o tienen colas largas.
- Box plots: Muestran los cuartiles y los valores atípicos, proporcionando una representación más completa de la dispersión en los datos.
Cuando los datos tienen una variabilidad significativa o cuando la distribución es importante, es preferible utilizar gráficos que muestren más información que solo la media y el error estándar, para evitar interpretaciones engañosas.
2. Si utilizas un gráfico de barras, siempre comienza tu escala de Y en 0
Es fundamental entender por qué, al utilizar un gráfico de barras, se debe comenzar la escala del eje y en cero. Si no se hace, se pueden crear representaciones visuales engañosas que exageren las diferencias entre categorías.
Observación: Al iniciar el eje y en cero, las diferencias entre las barras reflejan proporcionalmente las diferencias reales en los datos. Sin embargo, si comenzamos el eje y en un valor diferente de cero, las diferencias pueden exagerarse o minimizarse, lo que lleva a interpretaciones incorrectas.
Ahora, veamos qué pasa si el eje y no comienza en cero. Ajustaremos el límite inferior del eje y para que comience en 49.
Observación: Al no iniciar el eje y en cero, la diferencia entre las barras parece mucho más grande de lo que realmente es. Esto puede llevar a interpretaciones erróneas sobre la magnitud de las diferencias entre los grupos.
Para visualizar mejor la diferencia, podemos colocar ambos gráficos uno al lado del otro:
Al no iniciar el eje y en cero en un gráfico de barras:
- Se exageran visualmente las diferencias entre las categorías.
- Se distorsiona la percepción de la magnitud real de los datos.
- Se puede inducir a interpretaciones erróneas o sesgadas.
Los gráficos de barras representan cantidades mediante la altura de las barras desde una base común (cero). Si la base no es cero, la altura de las barras no es proporcional a los valores reales, lo que contradice el propósito del gráfico.
Siempre comienza el eje y en cero al utilizar gráficos de barras.
Si necesitas resaltar diferencias pequeñas, considera utilizar otro tipo de gráfico, como:
- Gráfico de líneas: Adecuado para mostrar tendencias o cambios.
- Gráfico de puntos (dot plot): Muestra valores individuales y es útil para comparaciones precisas.
- Gráfico de violín o boxplot: Muestra la distribución de los datos.
Ejemplo alternativo: Usando un gráfico de líneas Si representamos los mismos datos con un gráfico de líneas, podemos ajustar el eje y sin el riesgo de distorsionar la percepción de las diferencias:
Observación: En un gráfico de líneas, ajustar el eje y puede ser aceptable porque no se basa en áreas para representar cantidades. Sin embargo, siempre se debe tener cuidado al interpretar los resultados.
3. No Uses Escalas de Colores Rojo/Verde o Arcoíris
Las escalas de colores rojas y verdes son problemáticas porque 1 de cada 12 hombres y 1 de cada 200 mujeres tienen algún tipo de daltonismo rojo/verde (deuteranomalía). Además, las escalas de colores arcoíris no son ideales porque:
- Dificultan la interpretación en escalas de grises.
- No son perceptualmente uniformes, lo que significa que los cambios en color no se corresponden linealmente con los cambios en los datos.
Solución:
Utilizar escalas de colores amigables para personas con daltonismo y que se vean bien en escalas de grises, como:
- Viridis: Una escala de colores perceptualmente uniforme que es segura para personas con daltonismo.
- Magma, Plasma, Inferno: Otras escalas perceptualmente uniformes que también son seguras para personas con daltonismo.
Ejemplo de uso de la escala viridis en un heatmap:
En este ejemplo, es fácil comparar los valores en el heatmap porque la escala de colores es perceptualmente uniforme y segura para personas con daltonismo. Puedes identificar rápidamente las áreas con valores altos (amarillo), valores medios (verde) o bajos (azúl oscuro) sin problemas de interpretación.
Ahora, compáralo con la escalas de colores arcoíris y observa cómo la interpretación se vuelve más difícil:
A menos que haya una razón específica para usar una escala de colores rojo/verde o arcoíris (por ejemplo, si quieres representar el espectro electromagnético), es mejor optar por una escala de colores perceptualmente uniforme y segura para personas con daltonismo, como viridis.
En resumen, siempre que vayas a utilizar una escala de colores continua en tus gráficos, considera utilizar la librería viridis
.