¿Qué es un contraste de hipótesis?

Un contraste de hipótesis usa datos muestrales para evaluar una afirmación sobre un parámetro poblacional. No prueba ni refuta nada con certeza: cuantifica cuán compatibles son los datos con la hipótesis nula y proporciona un marco estructurado para tomar decisiones bajo incertidumbre.

Las dos hipótesis

Todo contraste de hipótesis parte de dos afirmaciones que compiten sobre un parámetro poblacional:

  • La hipótesis nula \(H_0\): la posición por defecto, habitualmente “sin efecto”, “sin diferencia” o un valor específico. Se asume verdadera hasta que los datos aporten evidencia suficiente en su contra.
  • La hipótesis alternativa \(H_1\) (o \(H_a\)): la afirmación que se quiere evaluar. Solo se acepta cuando los datos son incompatibles con \(H_0\).
Formulación de hipótesis

Un fabricante afirma que sus baterías duran 20 horas de media. Un grupo de consumidores sospecha que la media real es menor.

  • \(H_0\): \(\mu = 20\) horas (la afirmación es correcta).
  • \(H_1\): \(\mu < 20\) horas (las baterías duran menos de lo declarado).

Una empresa farmacéutica prueba un nuevo fármaco frente a placebo.

  • \(H_0\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} = 0\) (sin efecto).
  • \(H_1\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} \neq 0\) (algún efecto, en cualquier dirección).

Example icon

Contraste unilateral vs bilateral

La elección de \(H_1\) determina la dirección del contraste:

  • Bilateral (\(H_1: \theta \neq \theta_0\)): se rechaza \(H_0\) si el estadístico es extremo en cualquier dirección. Se usa cuando no hay razón previa para esperar una dirección específica.
  • Unilateral (\(H_1: \theta > \theta_0\) o \(H_1: \theta < \theta_0\)): se rechaza solo en una cola. Se usa cuando solo una dirección tiene sentido científico o práctico.

⚠️ Elige la dirección del contraste antes de ver los datos

La dirección de \(H_1\) debe especificarse en función de la pregunta de investigación, no en función de lo que muestren los datos. Cambiar de un contraste bilateral a uno unilateral después de ver que el resultado va en la dirección “correcta” reduce el p-valor a la mitad, pero no es válido: es una forma de p-hacking. Preespecifica tus hipótesis o usa contrastes bilaterales por defecto cuando tengas dudas.

Pasos en un contraste de hipótesis

Paso 1: plantea las hipótesis \(H_0\) y \(H_1\).

Paso 2: elige \(\alpha\), el nivel de significación. Los valores habituales son 0,05 y 0,01. Es la probabilidad máxima aceptable de cometer un error de tipo I (rechazar \(H_0\) cuando es verdadera).

Paso 3: calcula el estadístico del contraste, una función de los datos muestrales que mide cuánto se alejan los datos observados de lo que predice \(H_0\). Para un contraste \(t\) de una muestra:

\[t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\]

Paso 4: calcula el p-valor (o compáralo con un valor crítico). El p-valor es la probabilidad de observar un estadístico del contraste al menos tan extremo como el calculado, asumiendo que \(H_0\) es verdadera.

Paso 5: toma una decisión. Si \(p \leq \alpha\), rechaza \(H_0\). Si \(p > \alpha\), no rechaza \(H_0\).

Paso 6: interpreta en contexto. Una decisión estadística no es el final: tradúcela en una conclusión práctica.

Distribución normal mostrando las regiones de rechazo y el estadístico del contraste para un contraste de hipótesis unilateral

La línea roja es el \(t = -2{,}28\) observado, que cae en la región de rechazo (área roja). Como \(t < t^* = -1{,}699\), rechazamos \(H_0\).

El p-valor

El p-valor es la probabilidad, calculada bajo \(H_0\), de observar un estadístico del contraste al menos tan extremo como el obtenido.

⚠️ El p-valor no es la probabilidad de que H0 sea verdadera

La interpretación errónea más frecuente: “el p-valor es la probabilidad de que la hipótesis nula sea verdadera.” Esto es incorrecto.

  • Correcto: el p-valor es \(P(\text{datos tan extremos o más} \mid H_0 \text{ es verdadera})\).
  • Incorrecto: el p-valor es \(P(H_0 \text{ es verdadera} \mid \text{datos})\).

Son cantidades completamente distintas. El p-valor es un concepto frecuentista: no dice nada sobre la probabilidad de ninguna hipótesis. Un p-valor pequeño significa que los datos son improbables bajo \(H_0\), no que \(H_0\) sea improbable.

Un segundo error habitual: “un p-valor de 0,03 significa que hay un 3% de probabilidad de estar equivocados.” Tampoco es correcto. El p-valor se calcula asumiendo que \(H_0\) es verdadera; no puede interpretarse como una probabilidad de error para ninguna conclusión concreta.

⚠️ La significación estadística no implica relevancia práctica

Un resultado puede ser estadísticamente significativo (\(p < 0{,}05\)) pero prácticamente irrelevante, especialmente con muestras grandes. Con \(n = 10{.}000\), una diferencia de 0,001 unidades puede ser muy significativa pero completamente irrelevante en la práctica.

Informa siempre los tamaños del efecto junto con los p-valores: la \(d\) de Cohen, el riesgo relativo o el intervalo de confianza del parámetro. El IC indica tanto si el efecto es significativo como qué magnitud tiene.

Errores de tipo I y tipo II

En cualquier contraste de hipótesis pueden cometerse dos tipos de error:

\(H_0\) verdadera \(H_0\) falsa
Rechazar \(H_0\) Error de tipo I (\(\alpha\)) Correcto (potencia \(= 1-\beta\))
No rechazar \(H_0\) Correcto Error de tipo II (\(\beta\))
  • Error de tipo I (falso positivo): rechazar \(H_0\) cuando es verdadera. Probabilidad \(= \alpha\), controlada por el nivel de significación.
  • Error de tipo II (falso negativo): no rechazar \(H_0\) cuando es falsa. Probabilidad \(= \beta\).
  • Potencia \(= 1 - \beta\): probabilidad de rechazar correctamente una \(H_0\) falsa.

Dos distribuciones solapadas que muestran la hipótesis nula y la alternativa con las regiones de error de tipo I alfa y tipo II beta destacadas

El compromiso: reducir \(\alpha\) (desplazar el valor crítico a la derecha) reduce los errores de tipo I pero aumenta los de tipo II (\(\beta\)). Para \(\alpha\) fijo, aumentar \(n\) reduce ambos errores simultáneamente.

Ejemplo completo: duración de las baterías

Un fabricante afirma que sus baterías duran \(\mu_0 = 20\) horas. Un investigador muestrea 30 baterías y obtiene \(\bar{x} = 19{,}5\) horas, \(S = 1{,}2\) horas. Contrasta con \(\alpha = 0{,}05\).

Hipótesis: \(H_0: \mu = 20\) frente a \(H_1: \mu < 20\) (unilateral, cola izquierda).

Estadístico del contraste:

\[t = \frac{19{,}5 - 20}{1{,}2/\sqrt{30}} = \frac{-0{,}5}{0{,}219} \approx -2{,}28\]

Valor crítico: \(t_{0{,}05,\; 29} = -1{,}699\).

P-valor: \(P(T_{29} < -2{,}28) \approx 0{,}015\).

Decisión: como \(t = -2{,}28 < -1{,}699\) y \(p = 0{,}015 < 0{,}05\), rechazamos \(H_0\).

Conclusión: hay evidencia significativa al nivel del 5% de que la duración media de las baterías es inferior a 20 horas. La afirmación del fabricante parece estar sobrevalorada.

Tamaño muestral y potencia

La potencia es la probabilidad de rechazar \(H_0\) cuando \(H_1\) es verdadera. Para un contraste \(t\) de una muestra que detecta una diferencia \(\delta = \mu_1 - \mu_0\) con \(\sigma\) conocida:

\[n \geq \frac{(z_{\alpha} + z_{\beta})^2 \sigma^2}{\delta^2}\]

Para el ejemplo de las baterías: supón que la media real es \(\mu_1 = 19{,}5\) horas (\(\delta = 0{,}5\)), \(\sigma = 1{,}2\), \(\alpha = 0{,}05\), potencia deseada \(= 0{,}80\) (\(z_\beta = 0{,}842\)):

\[n \geq \frac{(1{,}645 + 0{,}842)^2 \times 1{,}44}{0{,}25} = \frac{6{,}185 \times 1{,}44}{0{,}25} = \frac{8{,}91}{0{,}25} \approx 36\]

Con \(n = 30\) (la muestra real), la potencia es ligeramente inferior al 80%, lo que explica que el contraste apenas rechazara \(H_0\).

💡 Guía práctica

  • Especifica siempre \(H_0\), \(H_1\), \(\alpha\) y el contraste antes de recoger los datos.
  • Informa el p-valor y el tamaño del efecto, no solo “significativo” o “no significativo”.
  • El contraste bilateral es la opción segura por defecto, salvo que haya una hipótesis direccional clara establecida de antemano.
  • Para un estudio nuevo, calcula el \(n\) necesario para lograr al menos un 80% de potencia antes de recoger los datos.
  • \(p > 0{,}05\) no significa que \(H_0\) sea verdadera: significa que los datos no aportan evidencia suficiente para rechazarla. La ausencia de evidencia no es evidencia de ausencia.