Pruebas t para Muestras Independientes y el Test de Mann-Whitney
Introducción a las Pruebas para Comparar Dos Medias
Hasta ahora, hemos explorado cómo comparar medias que provienen de una misma muestra (prueba t de una muestra) o de dos muestras relacionadas (prueba t pareada). En esta lección, nos centraremos en comparar las medias de dos grupos independientes. Este tipo de comparación es común en estudios de investigación, donde queremos determinar si hay diferencias significativas entre dos grupos en una variable de interés.
Cuando comparamos las medias de dos grupos independientes (independientes significa que las observaciones en un grupo no están relacionadas con las observaciones en el otro grupo), podemos utilizar dos pruebas comunes:
- Prueba t para dos muestras independientes: Evalúa si las medias de dos grupos son significativamente diferentes.
- Test de Mann-Whitney U: Es una alternativa no paramétrica a la prueba t de dos muestras independientes, que compara las distribuciones de dos grupos basándose en los rangos de los datos.
Ambas pruebas pueden entenderse como modelos lineales simples que predicen la diferencia entre las medias de los grupos. En el caso de la prueba t, se utiliza el valor original de la variable, mientras que en el test de Mann-Whitney, se utilizan los rangos de los valores.
Puntos clave
- Prueba t para dos muestras independientes como modelo lineal: El modelo lineal en este caso predice la media de la variable dependiente (\((y\))) para cada grupo. La variable independiente (\((x\))) es un indicador que toma el valor de 0 o 1 dependiendo de a qué grupo pertenece la observación. Esto se conoce como codificación dummy y se refiere a la conversión de variables categóricas en variables numéricas. Por ejemplo, si tenemos una variable
sexo
con dos categorías (masculino
yfemenino
), podemos codificarla como0
y1
para usarla en un modelo lineal, donde 0 representamasculino
y 1 representafemenino
.
Ecuación lineal del modelo de la prueba t para muestras independientes: \[ y_i = \beta_0 + \beta_1 \cdot x_i \]
- Si \((x_i = 0\)), entonces \((y_i = \beta_0\)), es decir, la media del primer grupo.
- Si \((x_i = 1\)), entonces \((y_i = \beta_0 + \beta_1\)), que es la media del segundo grupo.
La hipótesis nula (\((H_0\))) es que no hay diferencia entre las medias de los grupos (\((\beta_1 = 0\))).
Test de Mann-Whitney U como modelo lineal: Similar a la prueba t, pero en lugar de los valores originales de \((y\)), se utilizan los rangos de \((y\)):
\[ \text{rango}(y_i) = \beta_0 + \beta_1 \cdot x_i \]
Codificación dummy: Es una técnica que se utiliza para convertir variables categóricas en variables numéricas para que puedan ser utilizadas en modelos lineales. Por lo general, no tenemos que preocuparnos por la codificación dummy ya que R y otros programas estadísticos la realizan automáticamente cuando ajustamos modelos lineales con variables categóricas. Sin embargo, a continuación se proporciona una explicación más detallada sobre la codificación dummy para una mejor comprensión.
Ejemplo en R: Comparación de Dos Medias
Regresando a nuestro tema principal, vamos a realizar una comparación de dos medias utilizando la prueba t para dos muestras independientes y el test de Mann-Whitney U.
Paso 1: Datos
Tenemos el siguiente conjunto de datos con dos grupos independientes (en la variable grupo
), donde queremos comparar las medias de y
entre los dos grupos.
Paso 2: Visualización de la Prueba t para Dos Muestras Independientes
- Creamos una gráfica que muestra las medias de los dos grupos.
- En este gráfico, observamos la media del grupo 1 (x = 0) y grupo 2 (x = 1). La línea roja representa la diferencia entre las medias de los dos grupos y corresponde a la pendiente del modelo lineal.
Paso 3: Prueba t
Podemos realizar la prueba t de dos muestras independientes utilizando la función t.test()
. También podemos obtener el mismo resultado utilizando un modelo lineal con codificación dummy. De nuevo, no te preocupes por el código, lo importante es entender que la prueba t y el modelo lineal son lo mismo.
- Ahora, el output de la prueba t nos da dos medias (grupo 0=x=0.32 y grupo 1=y=1.30). El modelo lineal nos da la pendiente (diferencia entre las medias), que es 0.98 (
1.30 - 0.32
). - El valor p de la prueba t es
3.494e-12
, lo que indica que la diferencia entre las medias es significativa. El valor p de la pendiente en el modelo lineal es el mismo y también indica significancia. - NOTA: el modelo lineal también nos da el coeficiente del intercepto. Muchas veces, este coeficiente no es relevante ya que solo indica la media del grupo de referencia (la mayoría de las veces nos interesa la diferencia entre las medias). El valor p del intercepto también se ignora en muchos casos ya que no es relevante para la comparación de medias.
Paso 4: Test de Mann-Whitney U
El test de Mann-Whitney U se puede realizar con la función wilcox.test()
, y nuevamente podemos obtener el mismo resultado con un modelo lineal aplicado a los rangos de los valores. - De nuevo, en este caso los valores p no son idénticos, pero ambos indican significancia en la diferencia entre los grupos.
La razón por la que se usa la función wilcox.test()
para realizar un test de Mann-Whitney U es porque ambos tests están relacionados, y la función wilcox.test()
en R puede realizar dos tipos de pruebas:
- Prueba de Wilcoxon de rangos con signo (Wilcoxon signed-rank test): Se utiliza para comparar muestras pareadas o una sola muestra contra un valor hipotético.
- Prueba de Mann-Whitney U (Mann-Whitney-Wilcoxon test): Se utiliza para comparar dos grupos independientes.
La función wilcox.test()
es versátil y puede realizar ambas pruebas (Wilcoxon signed-rank y Mann-Whitney U). Cuando se le proporcionan dos conjuntos de datos independientes, la función automáticamente realiza el test de Mann-Whitney U.
Ejemplo de uso de wilcox.test()
para Mann-Whitney U:
En este ejemplo, como estás comparando dos grupos independientes (grupo1
y grupo2
), R interpretará que deseas realizar el test de Mann-Whitney U y no el test de Wilcoxon de rangos con signo.
¿Cómo sabe R cuándo hacer un test de Wilcoxon o un test de Mann-Whitney?
Si proporcionas una sola muestra o especificas el argumento
paired = TRUE
, entonceswilcox.test()
realizará el Wilcoxon signed-rank test (para muestras pareadas o una muestra contra un valor).Si proporcionas dos muestras independientes,
wilcox.test()
realizará el test de Mann-Whitney U.
Ejemplo de Wilcoxon signed-rank test (muestras pareadas):
Aquí, al usar el argumento paired = TRUE
, le indicas a R que realice el Wilcoxon signed-rank test para comparar muestras pareadas.