Pruebas de Hipótesis Estadísticas
Pruebas de Hipótesis Estadísticas
En el curso, hemos discutido un componente de la inferencia estadística, que es la estimación de parámetros poblacionales. También introdujimos las diferencias filosóficas y estadísticas entre los enfoques frecuentista y bayesiano para la estimación de parámetros. El otro componente principal de la inferencia estadística, que ha dominado la aplicación de la estadística en las ciencias biológicas, es la prueba de hipótesis sobre esos parámetros.
Gran parte de la justificación filosófica para el uso continuo de las pruebas estadísticas de hipótesis parece basarse en las propuestas de Popper sobre las pruebas falsificacionistas de hipótesis. Aunque Jerzy Neyman, Egon Pearson y Sir Ronald Fisher desarrollaron sus enfoques para las pruebas estadísticas en la década de 1930, es interesante notar que Popper no consideró formalmente las pruebas estadísticas como un mecanismo para falsificar hipótesis. Hilborn & Mangel (1997) mencionaron que “Popper proporcionó la filosofía y Fisher, Pearson y sus colegas proporcionaron la estadística”.
Pruebas Clásicas de Hipótesis Estadísticas
Las pruebas clásicas de hipótesis estadísticas se apoyan en dos conceptos básicos:
1. Hipótesis Nula (\(H_0\))
Primero, debemos establecer una hipótesis nula (\(H_0\)). Esta hipótesis generalmente (aunque no necesariamente) representa la ausencia de un efecto o una relación entre los parámetros poblacionales. Por ejemplo, la hipótesis nula podría ser que no hay diferencia entre las medias de dos poblaciones.
En muchos casos, se usa el término “efecto” para describir una diferencia entre grupos o tratamientos experimentales (o una pendiente de regresión no nula, etc.), por lo que el (\(H_0\)) suele ser una hipótesis de no efecto.
El fundamento filosófico de la hipótesis nula se relaciona, al menos en parte, con el falsificacionismo popperiano, donde el progreso científico se logra al someter las hipótesis a pruebas rigurosas y falsificarlas. La implicación es que rechazar el (\(H_0\)) es equivalente a falsificarlo y, por lo tanto, proporciona apoyo (o “corroboración”) para la hipótesis de investigación como la única alternativa plausible. Sin embargo, no probamos la hipótesis de investigación directamente, porque rara vez es más exacta que simplemente postular un efecto (a veces en una dirección particular).
2. Estadístico de Prueba
En segundo lugar, debemos elegir un estadístico de prueba para evaluar la \(H_0\). Un estadístico de prueba es una variable aleatoria que puede describirse mediante una distribución de probabilidad. Por ejemplo, un estadístico comúnmente utilizado para probar hipótesis sobre las medias poblacionales es el estadístico t.
El estadístico de prueba nos permite calcular un valor p, que es la probabilidad de observar un valor tan extremo (o más extremo) que el observado, bajo la suposición de que la hipótesis nula es verdadera. Si el valor p es menor que un nivel de significancia predefinido (generalmente \(\alpha = 0.05\)), rechazamos la hipótesis nula en favor de la hipótesis alternativa.
Ejemplo en R: Prueba de Hipótesis (Prueba t de dos muestras)
- Para que todo quede más claro, vamos a ver un ejemplo práctico de cómo realizar una prueba de hipótesis en R.
- Supongamos que queremos probar si existe una diferencia significativa entre las medias de dos grupos (por ejemplo, dos tratamientos diferentes en un experimento biológico). Utilizaremos una prueba t de dos muestras para este propósito.
1. Generar los datos
Aquí, hemos generado dos grupos con medias diferentes (grupo A con media 5 y grupo B con media 6) y una desviación estándar de 1.
2. Visualización preliminar de los datos
Antes de realizar la prueba, es útil visualizar los datos para observar las diferencias entre los grupos.
el boxplot nos indica que el grupo B tiene 2 outliers (los puntos que se observan fuera de los límites de la caja), lo que puede afectar la prueba de hipótesis. En la práctica, es importante considerar cómo manejar los valores atípicos y si deben ser excluidos o tratados de manera diferente. Por el momento, los dejaremos tal como están para ilustrar el proceso de prueba de hipótesis.
3. Realizar la prueba t de dos muestras
Ahora realizamos la prueba t de dos muestras para ver si la diferencia entre las medias es estadísticamente significativa.
El resultado de la prueba t incluye:
- El valor t, que es el estadístico de prueba. Este valor se compara con una distribución t para determinar la significancia estadística. R hace esto automáticamente y proporciona el valor p asociado.
- El valor p, que indica la probabilidad de observar una diferencia tan grande o mayor entre las medias bajo la hipótesis nula.
- El intervalo de confianza para la diferencia de medias.
- La decisión sobre si rechazar \(H_0\) o no, basada en el valor p y el nivel de significancia.
Interpretación de los resultados
- Si el valor p es menor que el nivel de significancia (\(\alpha = 0.05\)), rechazamos la hipótesis nula y concluimos que hay una diferencia significativa entre las medias de los dos grupos.
- Si el valor p es mayor que \(\alpha = 0.05\), no tenemos suficiente evidencia para rechazar la hipótesis nula, lo que implica que no podemos concluir que existe una diferencia significativa entre los grupos.
Cómo reportar los resultados
- Al reportar los resultados de una prueba de hipótesis, es importante incluir el valor p, el estadístico de prueba y el intervalo de confianza. Después del estadístico de prueba, se ponen los grados de libertad entre paréntesis.
t(grados.libertad) = estadístico, p = valor_p
- También es útil proporcionar una interpretación de los resultados en términos del problema de investigación y las implicaciones prácticas.
- Por ejemplo, podríamos decir: “Se encontró una diferencia significativa entre las medias de los grupos A y B (\(t(97) = -6.0718, p < 0.0001\)), lo que sugiere que el tratamiento B es más efectivo que el tratamiento A”.
Valor p y Niveles de Significancia
- Basado en el ejemplo anterior, vamos a ver de dónde viene el valor p y cómo se relaciona con los niveles de significancia.
- Como ya viste, calculamos el valor p de la prueba sin mucho esfuerzo. vamos a calcularlo y visualizarlo manualmente para entenderlo mejor, aunque normalmente no es necesario hacerlo en la práctica.
- Primero, a partir de la prueba t, obtenemos el valor p y los grados de libertad asociados.
- La forma de la distribución t depende de los grados de libertad (df). A medida que df aumenta, la distribución t se aproxima a la distribución normal estándar.
- Ahora, vamos a visualizar la distribución t con los grados de libertad obtenidos y marcar el estadístico t observado. También sombrearemos las áreas de las colas que corresponden al valor p.
- Recuerda en la clase de distribuciones de probabilidad que hablamos de distribuciones de probabilidad que se utilizan para distintos tipos de pruebas estadísticas. Una de ellas es la distribución t de Student.
Crear un data frame para la distribución t - Primero, creamos una secuencia de valores de t y calculamos la densidad de la distribución t para cada valor de t. - Calculamos la densidad de la distribución t para cada uno de estos valores usando la función dt(), que es la función de densidad de la distribución t. - La función dt() toma dos argumentos: el valor de t y los grados de libertad (df) de la distribución t. - La función de densidad de probabilidad (PDF, por sus siglas en inglés) describe la probabilidad relativa de que una variable aleatoria continua tome un valor específico. - Recuerda que vimos un poco de las funciones de densidad de probabilidad en la clase de distribuciones de probabilidad. - Al graficar la función de densidad, podemos ver dónde se concentra la mayor parte de la probabilidad. - En el contexto de pruebas de hipótesis, nos ayuda a entender dónde se ubica nuestro estadístico de prueba en relación con la distribución nula.
Analogía: Piensa en la función de densidad como un mapa de elevación de una montaña.
- Las alturas (densidad) indican qué tan probable es encontrar valores de la variable aleatoria en ciertas regiones.
- Las áreas más altas representan valores más probables, y las áreas más bajas representan valores menos probables.
- Calcular el valor p manualmente
- Podemos calcular esta probabilidad usando la función pt() en R, que calcula la probabilidad acumulada de la distribución t.
- El valor de densidad acumulada (o función de distribución acumulada, CDF por sus siglas en inglés) se usa para calcular probabilidades asociadas con nuestra variable aleatoria continua hasta un cierto punto.
- En el contexto del cálculo del valor p, utilizamos la función de distribución acumulada para determinar la probabilidad de obtener un estadístico tan extremo como el observado bajo la hipótesis nula.
- Mientras que la función de densidad nos muestra la forma de la distribución, la CDF nos proporciona probabilidades acumuladas.
- Ahora, vamos a visualizar la distribución t con los grados de libertad obtenidos y marcar el estadístico t observado. También sombrearemos las áreas de las colas que corresponden al valor p.
- La línea azul representa la densidad de la distribución t con los grados de libertad calculados.
- Las áreas sombreadas en naranja corresponden a las regiones de rechazo al nivel de significación \(\alpha = 0.05\).
- Las líneas verticales punteadas en color naranja están en los valores críticos t críticos (los valores de t que marcan los límites de las regiones de rechazo).
- Las áreas sombreadas en rojo corresponden al valor p (las colas de la distribución más allá de \(\pm t_{\text{observado}}\)). - Las líneas verticales punteadas marcan los valores de \(\pm t_{\text{observado}}\)
Al calcular el valor p manualmente y visualizarlo en el gráfico, podemos ver cómo el estadístico t observado se sitúa en las colas extremas de la distribución t, lo que indica que es poco probable obtener un valor tan extremo si la hipótesis nula es verdadera.
Podemos ver rápidamente un caso donde el valor p es mayor que el nivel de significancia (0.05), lo que sugiere que no tenemos suficiente evidencia para rechazar la hipótesis nula. - Vamos a repetir los pasos pasados, solo cambiaremos la media del grupo B a 5.2 en lugar de 6. - Como las medias de los grupos son más cercanas, esperamos que el valor p sea mayor y no rechacemos la hipótesis nula.
Críticas a las pruebas de hipótesis clásicas
Aunque las pruebas de hipótesis clásicas son ampliamente utilizadas, han sido objeto de crítica por varios motivos:
Dependencia del valor p: El valor p no mide la magnitud del efecto ni la importancia práctica de los resultados, solo indica si el efecto es estadísticamente significativo.
Dificultad en la interpretación: Rechazar \(H_0\) no implica necesariamente que la hipótesis de investigación sea verdadera. Puede haber muchas otras explicaciones para los resultados, y la verdadera corroboración de una hipótesis requiere más que una simple prueba de significancia.
Problemas filosóficos: La idea de que rechazar la hipótesis nula confirma la hipótesis de investigación ha sido criticada por ser un razonamiento débil desde una perspectiva filosófica.
Conclusión
Las pruebas de hipótesis estadísticas son una herramienta central en la inferencia estadística, especialmente en las ciencias biológicas. Sin embargo, es crucial entender tanto sus fortalezas como sus limitaciones. El enfoque clásico de pruebas de hipótesis, basado en el rechazo de la hipótesis nula, ha sido ampliamente utilizado, pero debe complementarse con una interpretación cuidadosa de los valores p, los intervalos de confianza y el contexto práctico de los resultados.