Comparar media de dos grupos independientes con t-test en R

Author
Affiliation

Mtro. Santiago Ríos

Muestra independiente: Las muestras son independientes si las observaciones en un grupo no están relacionadas con las observaciones en el otro grupo. Por ejemplo, si se mide el peso de dos grupos (placebo vs tratamiento) de personas diferentes, los datos de un grupo no están relacionados con los datos del otro grupo. Muestra pareada o emparejada: Las muestras son pareadas si las observaciones en un grupo están relacionadas con las observaciones en el otro grupo. Por ejemplo, si se mide el peso de las mismas personas antes y después de un tratamiento, los datos de un grupo están relacionados con los datos del otro grupo.

Ejemplo Práctico

  • Vamos a trabajar con datos simulados. En estos datos, tenemos las medidas de peso de dos grupos de personas: 50 mujeres (grupo A) y 50 hombres (grupo B). Queremos saber si la media de peso de las mujeres (A) es significativamente diferente de la de los hombres (B).
  • En este caso, tenemos dos grupos de muestras no relacionadas (es decir, independientes o no pareadas). Por lo tanto, es posible utilizar una prueba t independiente para evaluar si las medias son diferentes.
Condiciones para usar la prueba t de dos muestras no pareadas
  • Las dos muestras (A y B) deben ser independientes. Esto lo comprobamos al recolectar los datos (sabemos que el grupo de mujeres no está relacionado con el grupo de hombres).
  • Las dos muestras (A y B) deben ser aproximadamente distribuidas normalmente. Esto se puede verificar utilizando la prueba de Shapiro-Wilk.
  • Las dos muestras (A y B) deben tener varianzas iguales. Esto se puede verificar utilizando la prueba F.

Hipótesis de investigación

  • \(H_0\): La media de peso de las mujeres (A) es igual a la media de peso de los hombres (B).
  • \(H_1\): La media de peso de las mujeres (A) es diferente de la media de peso de los hombres (B).

Visualización preliminar de los datos

Gráfico de caja

Estadísticas descriptivas

Prueba de normalidad

Prueba de Shapiro-Wilk

  • Hipótesis nula: los datos siguen una distribución normal.
  • Hipótesis alternativa: los datos no siguen una distribución normal.

En ambos casos, el p-value es mayor que el nivel de significancia 0.05, lo que indica que los datos no son significativamente diferentes de una distribución normal.

Prueba de homogeneidad de varianzas

  • Podemos usar la prueba F para probar la homogeneidad de varianzas con la función var.test().
  • \(H_0\): Las varianzas de los dos grupos son iguales.
  • \(H_1\): Las varianzas de los dos grupos son diferentes.
  • No hay evidencia significativa para rechazar la hipótesis nula de igualdad de varianzas.
  • Por lo tanto, podemos usar la prueba t clásica que asume igualdad de varianzas.
  • En caso que las varianzas no fueran iguales, se recomienda usar la prueba t de Welch. Para esto, solo necesitas cambiar el argumento var.equal = FALSE en la función t.test().

Prueba de t de Student

  • El valor p de la prueba es 0.01327, que es menor que el nivel de significancia alpha = 0.05.
  • Por lo tanto, podemos concluir que la media de peso de los hombres es significativamente diferente de la de las mujeres con un valor p = 0.01327.

Gráfico para visualizar la diferencia de medias y la prueba estadística

Podemos visualizar la diferencia de medias y la prueba estadística en un gráfico de caja.

OJO. El gráfico de ggpubr redondea el valor de la prueba de t a 3 decimales, mientras que la función t.test() devuelve un valor más preciso.

Opción 2 - Con gráficos de barras y Error Estándar de la Media