Kruskal-Wallis Test

Author
Affiliation

Mtro. Santiago Ríos

¿Qué es el test de Kruskal-Wallis?

El test de Kruskal-Wallis es una prueba no paramétrica utilizada para determinar si hay diferencias significativas entre tres o más grupos en una variable continua. Es una alternativa al ANOVA de una vía cuando los datos no cumplen con los supuestos de normalidad y homogeneidad de varianzas.

Supongamos que tenemos un experimento con dos factores: Tipo de Suplemento (con niveles “OJ” para jugo de naranja y “VC” para vitamina C) y Dosis (con niveles 0.5, 1 y 2). La variable de respuesta es la Longitud del Diente. Aquí está cómo se vería una tabla que muestra las celdas formadas por las combinaciones de niveles de estos factores:

Tipo de Suplemento Dosis Longitud del Diente (ejemplo)
OJ 0.5 13.2
OJ 1.0 22.7
OJ 2.0 26.4
VC 0.5 8.2
VC 1.0 15.5
VC 2.0 23.3

Vamos a utilizar el test de Kruskal-Wallis para determinar si hay diferencias significativas en la longitud del diente entre los diferentes niveles del factor Tipo de Suplemento.

Hipótesis del test de Kruskal-Wallis

  1. Hipótesis Nula (H0): La media de longitud del diente es igual para todos los tipos de suplemento.
  2. Hipótesis Alternativa (H1): Al menos una de las medias de longitud del diente es diferente.

Datos

Usaremos el conjunto de datos incorporado en R llamado ToothGrowth. Contiene datos de un estudio que evalúa el efecto de la vitamina C en el crecimiento dental en cobayas. El experimento se ha realizado en 60 cobayas, donde cada animal recibió uno de tres niveles de dosis de vitamina C (0.5, 1 y 2 mg/día) mediante uno de dos métodos de administración (jugo de naranja o ácido ascórbico, y codificado como VC). Se midió la longitud del diente y se muestra una muestra de los datos a continuación.

Visualiza tus datos

Calcular el test de Kruskal-Wallis

Queremos saber si la longitud del diente depende de supp.

  • Podemos usar la función kruskal.test() para realizar el test de Kruskal-Wallis en R.
  • La función kruskal.test() toma la fórmula fórmula y los datos data como argumentos.
    • La fórmula es de la forma y ~ x, donde y es la variable de respuesta y x es la variable de factor.

Visualizar los resultados y agregar p-valores a los gráficos