Pruebas de Hipótesis Estadísticas

Author
Affiliation

Mtro. Santiago Ríos

Pruebas de Hipótesis Estadísticas

En el curso, hemos discutido un componente de la inferencia estadística, que es la estimación de parámetros poblacionales. También introdujimos las diferencias filosóficas y estadísticas entre los enfoques frecuentista y bayesiano para la estimación de parámetros. El otro componente principal de la inferencia estadística, que ha dominado la aplicación de la estadística en las ciencias biológicas, es la prueba de hipótesis sobre esos parámetros.

Gran parte de la justificación filosófica para el uso continuo de las pruebas estadísticas de hipótesis parece basarse en las propuestas de Popper sobre las pruebas falsificacionistas de hipótesis. Aunque Jerzy Neyman, Egon Pearson y Sir Ronald Fisher desarrollaron sus enfoques para las pruebas estadísticas en la década de 1930, es interesante notar que Popper no consideró formalmente las pruebas estadísticas como un mecanismo para falsificar hipótesis. Hilborn & Mangel (1997) mencionaron que “Popper proporcionó la filosofía y Fisher, Pearson y sus colegas proporcionaron la estadística”.

Pruebas Clásicas de Hipótesis Estadísticas

Las pruebas clásicas de hipótesis estadísticas se apoyan en dos conceptos básicos:

1. Hipótesis Nula (\(H_0\))

Primero, debemos establecer una hipótesis nula (\(H_0\)). Esta hipótesis generalmente (aunque no necesariamente) representa la ausencia de un efecto o una relación entre los parámetros poblacionales. Por ejemplo, la hipótesis nula podría ser que no hay diferencia entre las medias de dos poblaciones.

En muchos casos, se usa el término “efecto” para describir una diferencia entre grupos o tratamientos experimentales (o una pendiente de regresión no nula, etc.), por lo que el (\(H_0\)) suele ser una hipótesis de no efecto.

El fundamento filosófico de la hipótesis nula se relaciona, al menos en parte, con el falsificacionismo popperiano, donde el progreso científico se logra al someter las hipótesis a pruebas rigurosas y falsificarlas. La implicación es que rechazar el (\(H_0\)) es equivalente a falsificarlo y, por lo tanto, proporciona apoyo (o “corroboración”) para la hipótesis de investigación como la única alternativa plausible. Sin embargo, no probamos la hipótesis de investigación directamente, porque rara vez es más exacta que simplemente postular un efecto (a veces en una dirección particular).

2. Estadístico de Prueba

En segundo lugar, debemos elegir un estadístico de prueba para evaluar la \(H_0\). Un estadístico de prueba es una variable aleatoria que puede describirse mediante una distribución de probabilidad. Por ejemplo, un estadístico comúnmente utilizado para probar hipótesis sobre las medias poblacionales es el estadístico t.

El estadístico de prueba nos permite calcular un valor p, que es la probabilidad de observar un valor tan extremo (o más extremo) que el observado, bajo la suposición de que la hipótesis nula es verdadera. Si el valor p es menor que un nivel de significancia predefinido (generalmente \(\alpha = 0.05\)), rechazamos la hipótesis nula en favor de la hipótesis alternativa.

Qué es el valor p
  • El valor p es la probabilidad de observar un resultado al menos tan extremo como el resultado observado, bajo la suposición de que la hipótesis nula es verdadera.
  • En otras palabras, mide la evidencia en contra de la hipótesis nula. - Un valor p pequeño indica que los datos observados son poco consistentes con la hipótesis nula.
    • Valor p bajo: Si el valor p es bajo (por ejemplo, menor que 0.05), se considera que hay evidencia suficiente para rechazar la hipótesis nula.
    • Valor p alto: Un valor p alto sugiere que los datos son consistentes con la hipótesis nula, y no se tiene suficiente evidencia para rechazarla.

Uso en Estadísticos de Prueba

  • Cuando realizas una prueba estadística (como una prueba t, ANOVA, o chi-cuadrado), calculas un estadístico de prueba basado en tus datos.
  • A partir de este estadístico de prueba determinar el valor p.
  • Los valores p se utilizan frecuentemente para decir que un resultado es “estadísticamente significativo” si el valor p es menor que un nivel de significancia predefinido (como \(\alpha = 0.05\)).
  • La significancia estadística es otra forma de decir que los resultados son poco probables de haber ocurrido por azar si la hipótesis nula es verdadera.
  • La significancia estadística no es lo mismo que la importancia práctica o biológica. Un resultado puede ser estadísticamente significativo, pero no necesariamente importante desde un punto de vista práctico.

¿Por qué 0.05?

Convención Histórica de \(\alpha = 0.05\)

  • El nivel de significancia \(\alpha = 0.05\) se ha convertido en un estándar en muchas disciplinas científicas debido a su uso temprano y adopción por estadísticos influyentes como Ronald Fisher.
  • Representa un compromiso razonable entre el riesgo de cometer un error de Tipo I (rechazar \(H_0\) cuando es verdadera) y la necesidad de detectar un efecto verdadero.
    • Error tipo I: Rechazar la hipótesis nula cuando es verdadera. Por ejemplo, concluir que un tratamiento es efectivo cuando no lo es.
    • Error tipo II: No rechazar la hipótesis nula cuando es falsa. Por ejemplo, no detectar un tratamiento efectivo cuando realmente lo es.
  • Aunque \(0.05\) es común, no es un estándar rígido. Dependiendo del contexto, los investigadores pueden usar niveles de significancia más estrictos (como \(0.01\)) o más laxos (como $0.10), especialmente si las consecuencias de cometer errores son más o menos severas.
  • Usar \(\alpha = 0.05\) significa que aceptamos un 5% de probabilidad de cometer un error de Tipo I. Esto es considerado un nivel aceptable de riesgo en muchos campos, aunque siempre se debe considerar el contexto específico del estudio.
  • Este \(\alpha = 0.05\) puede distribuirse en dos colas (0.025 en cada cola) o en una cola (0.05 en una cola). Esto depende de la naturaleza de la hipótesis de investigación y el diseño del estudio. Normalmente, las pruebas de dos colas se utilizan cuando se espera una diferencia en cualquier dirección, mientras que las pruebas de una cola se utilizan cuando se espera una diferencia en una dirección específica (por ejemplo, un tratamiento va a producir un efecto positivo y no esperas que sea negativo).

Ejemplo en R: Prueba de Hipótesis (Prueba t de dos muestras)

  • Para que todo quede más claro, vamos a ver un ejemplo práctico de cómo realizar una prueba de hipótesis en R.
  • Supongamos que queremos probar si existe una diferencia significativa entre las medias de dos grupos (por ejemplo, dos tratamientos diferentes en un experimento biológico). Utilizaremos una prueba t de dos muestras para este propósito.

1. Generar los datos

Aquí, hemos generado dos grupos con medias diferentes (grupo A con media 5 y grupo B con media 6) y una desviación estándar de 1.

2. Visualización preliminar de los datos

Antes de realizar la prueba, es útil visualizar los datos para observar las diferencias entre los grupos.

Note

el boxplot nos indica que el grupo B tiene 2 outliers (los puntos que se observan fuera de los límites de la caja), lo que puede afectar la prueba de hipótesis. En la práctica, es importante considerar cómo manejar los valores atípicos y si deben ser excluidos o tratados de manera diferente. Por el momento, los dejaremos tal como están para ilustrar el proceso de prueba de hipótesis.

3. Realizar la prueba t de dos muestras

Ahora realizamos la prueba t de dos muestras para ver si la diferencia entre las medias es estadísticamente significativa.

El resultado de la prueba t incluye:

  • El valor t, que es el estadístico de prueba. Este valor se compara con una distribución t para determinar la significancia estadística. R hace esto automáticamente y proporciona el valor p asociado.
  • El valor p, que indica la probabilidad de observar una diferencia tan grande o mayor entre las medias bajo la hipótesis nula.
  • El intervalo de confianza para la diferencia de medias.
  • La decisión sobre si rechazar \(H_0\) o no, basada en el valor p y el nivel de significancia.

Interpretación de los resultados

  • Si el valor p es menor que el nivel de significancia (\(\alpha = 0.05\)), rechazamos la hipótesis nula y concluimos que hay una diferencia significativa entre las medias de los dos grupos.
  • Si el valor p es mayor que \(\alpha = 0.05\), no tenemos suficiente evidencia para rechazar la hipótesis nula, lo que implica que no podemos concluir que existe una diferencia significativa entre los grupos.

Cómo reportar los resultados

  • Al reportar los resultados de una prueba de hipótesis, es importante incluir el valor p, el estadístico de prueba y el intervalo de confianza. Después del estadístico de prueba, se ponen los grados de libertad entre paréntesis.
    • t(grados.libertad) = estadístico, p = valor_p
  • También es útil proporcionar una interpretación de los resultados en términos del problema de investigación y las implicaciones prácticas.
  • Por ejemplo, podríamos decir: “Se encontró una diferencia significativa entre las medias de los grupos A y B (\(t(97) = -6.0718, p < 0.0001\)), lo que sugiere que el tratamiento B es más efectivo que el tratamiento A”.

Valor p y Niveles de Significancia

  • Basado en el ejemplo anterior, vamos a ver de dónde viene el valor p y cómo se relaciona con los niveles de significancia.
  • Como ya viste, calculamos el valor p de la prueba sin mucho esfuerzo. vamos a calcularlo y visualizarlo manualmente para entenderlo mejor, aunque normalmente no es necesario hacerlo en la práctica.
  • Primero, a partir de la prueba t, obtenemos el valor p y los grados de libertad asociados.
  • La forma de la distribución t depende de los grados de libertad (df). A medida que df aumenta, la distribución t se aproxima a la distribución normal estándar.
  • Ahora, vamos a visualizar la distribución t con los grados de libertad obtenidos y marcar el estadístico t observado. También sombrearemos las áreas de las colas que corresponden al valor p.
    • Recuerda en la clase de distribuciones de probabilidad que hablamos de distribuciones de probabilidad que se utilizan para distintos tipos de pruebas estadísticas. Una de ellas es la distribución t de Student.

Crear un data frame para la distribución t - Primero, creamos una secuencia de valores de t y calculamos la densidad de la distribución t para cada valor de t. - Calculamos la densidad de la distribución t para cada uno de estos valores usando la función dt(), que es la función de densidad de la distribución t. - La función dt() toma dos argumentos: el valor de t y los grados de libertad (df) de la distribución t. - La función de densidad de probabilidad (PDF, por sus siglas en inglés) describe la probabilidad relativa de que una variable aleatoria continua tome un valor específico. - Recuerda que vimos un poco de las funciones de densidad de probabilidad en la clase de distribuciones de probabilidad. - Al graficar la función de densidad, podemos ver dónde se concentra la mayor parte de la probabilidad. - En el contexto de pruebas de hipótesis, nos ayuda a entender dónde se ubica nuestro estadístico de prueba en relación con la distribución nula.

Tip

Analogía: Piensa en la función de densidad como un mapa de elevación de una montaña.

  • Las alturas (densidad) indican qué tan probable es encontrar valores de la variable aleatoria en ciertas regiones.
  • Las áreas más altas representan valores más probables, y las áreas más bajas representan valores menos probables.
  • Calcular el valor p manualmente
  • Podemos calcular esta probabilidad usando la función pt() en R, que calcula la probabilidad acumulada de la distribución t.
Tip
  • El valor de densidad acumulada (o función de distribución acumulada, CDF por sus siglas en inglés) se usa para calcular probabilidades asociadas con nuestra variable aleatoria continua hasta un cierto punto.
  • En el contexto del cálculo del valor p, utilizamos la función de distribución acumulada para determinar la probabilidad de obtener un estadístico tan extremo como el observado bajo la hipótesis nula.
  • Mientras que la función de densidad nos muestra la forma de la distribución, la CDF nos proporciona probabilidades acumuladas.
  • Ahora, vamos a visualizar la distribución t con los grados de libertad obtenidos y marcar el estadístico t observado. También sombrearemos las áreas de las colas que corresponden al valor p.
  • La línea azul representa la densidad de la distribución t con los grados de libertad calculados.
  • Las áreas sombreadas en naranja corresponden a las regiones de rechazo al nivel de significación \(\alpha = 0.05\).
  • Las líneas verticales punteadas en color naranja están en los valores críticos t críticos (los valores de t que marcan los límites de las regiones de rechazo).
  • Las áreas sombreadas en rojo corresponden al valor p (las colas de la distribución más allá de \(\pm t_{\text{observado}}\)). ​- Las líneas verticales punteadas marcan los valores de \(\pm t_{\text{observado}}\)

Al calcular el valor p manualmente y visualizarlo en el gráfico, podemos ver cómo el estadístico t observado se sitúa en las colas extremas de la distribución t, lo que indica que es poco probable obtener un valor tan extremo si la hipótesis nula es verdadera.

Podemos ver rápidamente un caso donde el valor p es mayor que el nivel de significancia (0.05), lo que sugiere que no tenemos suficiente evidencia para rechazar la hipótesis nula. - Vamos a repetir los pasos pasados, solo cambiaremos la media del grupo B a 5.2 en lugar de 6. - Como las medias de los grupos son más cercanas, esperamos que el valor p sea mayor y no rechacemos la hipótesis nula.

Críticas a las pruebas de hipótesis clásicas

Aunque las pruebas de hipótesis clásicas son ampliamente utilizadas, han sido objeto de crítica por varios motivos:

  1. Dependencia del valor p: El valor p no mide la magnitud del efecto ni la importancia práctica de los resultados, solo indica si el efecto es estadísticamente significativo.

  2. Dificultad en la interpretación: Rechazar \(H_0\) no implica necesariamente que la hipótesis de investigación sea verdadera. Puede haber muchas otras explicaciones para los resultados, y la verdadera corroboración de una hipótesis requiere más que una simple prueba de significancia.

  3. Problemas filosóficos: La idea de que rechazar la hipótesis nula confirma la hipótesis de investigación ha sido criticada por ser un razonamiento débil desde una perspectiva filosófica.

Conclusión

Las pruebas de hipótesis estadísticas son una herramienta central en la inferencia estadística, especialmente en las ciencias biológicas. Sin embargo, es crucial entender tanto sus fortalezas como sus limitaciones. El enfoque clásico de pruebas de hipótesis, basado en el rechazo de la hipótesis nula, ha sido ampliamente utilizado, pero debe complementarse con una interpretación cuidadosa de los valores p, los intervalos de confianza y el contexto práctico de los resultados.