INICIO

¿Qué es un contraste de hipótesis?

Un contraste de hipótesis usa datos muestrales para evaluar una afirmación sobre un parámetro poblacional. No prueba ni refuta nada con certeza: cuantifica cuán compatibles son los datos con la hipótesis nula y proporciona un marco estructurado para tomar decisiones bajo incertidumbre.

Las dos hipótesis

Todo contraste de hipótesis parte de dos afirmaciones que compiten sobre un parámetro poblacional:

La hipótesis nula \(H_0\): la posición por defecto, habitualmente “sin efecto”, “sin diferencia” o un valor específico. Se asume verdadera hasta que los datos aporten evidencia suficiente en su contra.
La hipótesis alternativa \(H_1\) (o \(H_a\)): la afirmación que se quiere evaluar. Solo se acepta cuando los datos son incompatibles con \(H_0\).

Formulación de hipótesis

Un fabricante afirma que sus baterías duran 20 horas de media. Un grupo de consumidores sospecha que la media real es menor.

\(H_0\): \(\mu = 20\) horas (la afirmación es correcta).
\(H_1\): \(\mu < 20\) horas (las baterías duran menos de lo declarado).

Una empresa farmacéutica prueba un nuevo fármaco frente a placebo.

\(H_0\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} = 0\) (sin efecto).
\(H_1\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} \neq 0\) (algún efecto, en cualquier dirección).

Contraste unilateral vs bilateral

La elección de \(H_1\) determina la dirección del contraste:

Bilateral (\(H_1: \theta \neq \theta_0\)): se rechaza \(H_0\) si el estadístico es extremo en cualquier dirección. Se usa cuando no hay razón previa para esperar una dirección específica.
Unilateral (\(H_1: \theta > \theta_0\) o \(H_1: \theta < \theta_0\)): se rechaza solo en una cola. Se usa cuando solo una dirección tiene sentido científico o práctico.

⚠️ Elige la dirección del contraste antes de ver los datos

La dirección de \(H_1\) debe especificarse en función de la pregunta de investigación, no en función de lo que muestren los datos. Cambiar de un contraste bilateral a uno unilateral después de ver que el resultado va en la dirección “correcta” reduce el p-valor a la mitad, pero no es válido: es una forma de p-hacking. Preespecifica tus hipótesis o usa contrastes bilaterales por defecto cuando tengas dudas.

Pasos en un contraste de hipótesis

Paso 1: plantea las hipótesis \(H_0\) y \(H_1\).

Paso 2: elige \(\alpha\), el nivel de significación. Los valores habituales son 0,05 y 0,01. Es la probabilidad máxima aceptable de cometer un error de tipo I (rechazar \(H_0\) cuando es verdadera).

Paso 3: calcula el estadístico del contraste, una función de los datos muestrales que mide cuánto se alejan los datos observados de lo que predice \(H_0\). Para un contraste \(t\) de una muestra:

\[t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\]

Paso 4: calcula el p-valor (o compáralo con un valor crítico). El p-valor es la probabilidad de observar un estadístico del contraste al menos tan extremo como el calculado, asumiendo que \(H_0\) es verdadera.

Paso 5: toma una decisión. Si \(p \leq \alpha\), rechaza \(H_0\). Si \(p > \alpha\), no rechaza \(H_0\).

Paso 6: interpreta en contexto. Una decisión estadística no es el final: tradúcela en una conclusión práctica.

Distribución normal mostrando las regiones de rechazo y el estadístico del contraste para un contraste de hipótesis unilateral

La línea roja es el \(t = -2{,}28\) observado, que cae en la región de rechazo (área roja). Como \(t < t^* = -1{,}699\), rechazamos \(H_0\).

El p-valor

El p-valor es la probabilidad, calculada bajo \(H_0\), de observar un estadístico del contraste al menos tan extremo como el obtenido.

⚠️ El p-valor no es la probabilidad de que H0 sea verdadera

La interpretación errónea más frecuente: “el p-valor es la probabilidad de que la hipótesis nula sea verdadera.” Esto es incorrecto.

Correcto: el p-valor es \(P(\text{datos tan extremos o más} \mid H_0 \text{ es verdadera})\).
Incorrecto: el p-valor es \(P(H_0 \text{ es verdadera} \mid \text{datos})\).

Son cantidades completamente distintas. El p-valor es un concepto frecuentista: no dice nada sobre la probabilidad de ninguna hipótesis. Un p-valor pequeño significa que los datos son improbables bajo \(H_0\), no que \(H_0\) sea improbable.

Un segundo error habitual: “un p-valor de 0,03 significa que hay un 3% de probabilidad de estar equivocados.” Tampoco es correcto. El p-valor se calcula asumiendo que \(H_0\) es verdadera; no puede interpretarse como una probabilidad de error para ninguna conclusión concreta.

⚠️ La significación estadística no implica relevancia práctica

Un resultado puede ser estadísticamente significativo (\(p < 0{,}05\)) pero prácticamente irrelevante, especialmente con muestras grandes. Con \(n = 10{.}000\), una diferencia de 0,001 unidades puede ser muy significativa pero completamente irrelevante en la práctica.

Informa siempre los tamaños del efecto junto con los p-valores: la \(d\) de Cohen, el riesgo relativo o el intervalo de confianza del parámetro. El IC indica tanto si el efecto es significativo como qué magnitud tiene.

Errores de tipo I y tipo II

En cualquier contraste de hipótesis pueden cometerse dos tipos de error:

	\(H_0\) verdadera	\(H_0\) falsa
Rechazar \(H_0\)	Error de tipo I (\(\alpha\))	Correcto (potencia \(= 1-\beta\))
No rechazar \(H_0\)	Correcto	Error de tipo II (\(\beta\))

Error de tipo I (falso positivo): rechazar \(H_0\) cuando es verdadera. Probabilidad \(= \alpha\), controlada por el nivel de significación.
Error de tipo II (falso negativo): no rechazar \(H_0\) cuando es falsa. Probabilidad \(= \beta\).
Potencia \(= 1 - \beta\): probabilidad de rechazar correctamente una \(H_0\) falsa.

Dos distribuciones solapadas que muestran la hipótesis nula y la alternativa con las regiones de error de tipo I alfa y tipo II beta destacadas

El compromiso: reducir \(\alpha\) (desplazar el valor crítico a la derecha) reduce los errores de tipo I pero aumenta los de tipo II (\(\beta\)). Para \(\alpha\) fijo, aumentar \(n\) reduce ambos errores simultáneamente.

Ejemplo completo: duración de las baterías

Un fabricante afirma que sus baterías duran \(\mu_0 = 20\) horas. Un investigador muestrea 30 baterías y obtiene \(\bar{x} = 19{,}5\) horas, \(S = 1{,}2\) horas. Contrasta con \(\alpha = 0{,}05\).

Hipótesis: \(H_0: \mu = 20\) frente a \(H_1: \mu < 20\) (unilateral, cola izquierda).

Estadístico del contraste:

\[t = \frac{19{,}5 - 20}{1{,}2/\sqrt{30}} = \frac{-0{,}5}{0{,}219} \approx -2{,}28\]

Valor crítico: \(t_{0{,}05,\; 29} = -1{,}699\).

P-valor: \(P(T_{29} < -2{,}28) \approx 0{,}015\).

Decisión: como \(t = -2{,}28 < -1{,}699\) y \(p = 0{,}015 < 0{,}05\), rechazamos \(H_0\).

Conclusión: hay evidencia significativa al nivel del 5% de que la duración media de las baterías es inferior a 20 horas. La afirmación del fabricante parece estar sobrevalorada.

Tamaño muestral y potencia

La potencia es la probabilidad de rechazar \(H_0\) cuando \(H_1\) es verdadera. Para un contraste \(t\) de una muestra que detecta una diferencia \(\delta = \mu_1 - \mu_0\) con \(\sigma\) conocida:

\[n \geq \frac{(z_{\alpha} + z_{\beta})^2 \sigma^2}{\delta^2}\]

Para el ejemplo de las baterías: supón que la media real es \(\mu_1 = 19{,}5\) horas (\(\delta = 0{,}5\)), \(\sigma = 1{,}2\), \(\alpha = 0{,}05\), potencia deseada \(= 0{,}80\) (\(z_\beta = 0{,}842\)):

\[n \geq \frac{(1{,}645 + 0{,}842)^2 \times 1{,}44}{0{,}25} = \frac{6{,}185 \times 1{,}44}{0{,}25} = \frac{8{,}91}{0{,}25} \approx 36\]

Con \(n = 30\) (la muestra real), la potencia es ligeramente inferior al 80%, lo que explica que el contraste apenas rechazara \(H_0\).

💡 Guía práctica

Especifica siempre \(H_0\), \(H_1\), \(\alpha\) y el contraste antes de recoger los datos.
Informa el p-valor y el tamaño del efecto, no solo “significativo” o “no significativo”.
El contraste bilateral es la opción segura por defecto, salvo que haya una hipótesis direccional clara establecida de antemano.
Para un estudio nuevo, calcula el \(n\) necesario para lograr al menos un 80% de potencia antes de recoger los datos.
\(p > 0{,}05\) no significa que \(H_0\) sea verdadera: significa que los datos no aportan evidencia suficiente para rechazarla. La ausencia de evidencia no es evidencia de ausencia.