¿Qué es un contraste de hipótesis?
Un contraste de hipótesis usa datos muestrales para evaluar una afirmación sobre un parámetro poblacional. No prueba ni refuta nada con certeza: cuantifica cuán compatibles son los datos con la hipótesis nula y proporciona un marco estructurado para tomar decisiones bajo incertidumbre.
Las dos hipótesis
Todo contraste de hipótesis parte de dos afirmaciones que compiten sobre un parámetro poblacional:
- La hipótesis nula \(H_0\): la posición por defecto, habitualmente “sin efecto”, “sin diferencia” o un valor específico. Se asume verdadera hasta que los datos aporten evidencia suficiente en su contra.
- La hipótesis alternativa \(H_1\) (o \(H_a\)): la afirmación que se quiere evaluar. Solo se acepta cuando los datos son incompatibles con \(H_0\).
Un fabricante afirma que sus baterías duran 20 horas de media. Un grupo de consumidores sospecha que la media real es menor.
- \(H_0\): \(\mu = 20\) horas (la afirmación es correcta).
- \(H_1\): \(\mu < 20\) horas (las baterías duran menos de lo declarado).
Una empresa farmacéutica prueba un nuevo fármaco frente a placebo.
- \(H_0\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} = 0\) (sin efecto).
- \(H_1\): \(\mu_{\text{fármaco}} - \mu_{\text{placebo}} \neq 0\) (algún efecto, en cualquier dirección).
Contraste unilateral vs bilateral
La elección de \(H_1\) determina la dirección del contraste:
- Bilateral (\(H_1: \theta \neq \theta_0\)): se rechaza \(H_0\) si el estadístico es extremo en cualquier dirección. Se usa cuando no hay razón previa para esperar una dirección específica.
- Unilateral (\(H_1: \theta > \theta_0\) o \(H_1: \theta < \theta_0\)): se rechaza solo en una cola. Se usa cuando solo una dirección tiene sentido científico o práctico.
⚠️ Elige la dirección del contraste antes de ver los datos
La dirección de \(H_1\) debe especificarse en función de la pregunta de investigación, no en función de lo que muestren los datos. Cambiar de un contraste bilateral a uno unilateral después de ver que el resultado va en la dirección “correcta” reduce el p-valor a la mitad, pero no es válido: es una forma de p-hacking. Preespecifica tus hipótesis o usa contrastes bilaterales por defecto cuando tengas dudas.
Pasos en un contraste de hipótesis
Paso 1: plantea las hipótesis \(H_0\) y \(H_1\).
Paso 2: elige \(\alpha\), el nivel de significación. Los valores habituales son 0,05 y 0,01. Es la probabilidad máxima aceptable de cometer un error de tipo I (rechazar \(H_0\) cuando es verdadera).
Paso 3: calcula el estadístico del contraste, una función de los datos muestrales que mide cuánto se alejan los datos observados de lo que predice \(H_0\). Para un contraste \(t\) de una muestra:
\[t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\]
Paso 4: calcula el p-valor (o compáralo con un valor crítico). El p-valor es la probabilidad de observar un estadístico del contraste al menos tan extremo como el calculado, asumiendo que \(H_0\) es verdadera.
Paso 5: toma una decisión. Si \(p \leq \alpha\), rechaza \(H_0\). Si \(p > \alpha\), no rechaza \(H_0\).
Paso 6: interpreta en contexto. Una decisión estadística no es el final: tradúcela en una conclusión práctica.

La línea roja es el \(t = -2{,}28\) observado, que cae en la región de rechazo (área roja). Como \(t < t^* = -1{,}699\), rechazamos \(H_0\).
El p-valor
El p-valor es la probabilidad, calculada bajo \(H_0\), de observar un estadístico del contraste al menos tan extremo como el obtenido.
⚠️ El p-valor no es la probabilidad de que H0 sea verdadera
La interpretación errónea más frecuente: “el p-valor es la probabilidad de que la hipótesis nula sea verdadera.” Esto es incorrecto.
- Correcto: el p-valor es \(P(\text{datos tan extremos o más} \mid H_0 \text{ es verdadera})\).
- Incorrecto: el p-valor es \(P(H_0 \text{ es verdadera} \mid \text{datos})\).
Son cantidades completamente distintas. El p-valor es un concepto frecuentista: no dice nada sobre la probabilidad de ninguna hipótesis. Un p-valor pequeño significa que los datos son improbables bajo \(H_0\), no que \(H_0\) sea improbable.
Un segundo error habitual: “un p-valor de 0,03 significa que hay un 3% de probabilidad de estar equivocados.” Tampoco es correcto. El p-valor se calcula asumiendo que \(H_0\) es verdadera; no puede interpretarse como una probabilidad de error para ninguna conclusión concreta.
⚠️ La significación estadística no implica relevancia práctica
Un resultado puede ser estadísticamente significativo (\(p < 0{,}05\)) pero prácticamente irrelevante, especialmente con muestras grandes. Con \(n = 10{.}000\), una diferencia de 0,001 unidades puede ser muy significativa pero completamente irrelevante en la práctica.
Informa siempre los tamaños del efecto junto con los p-valores: la \(d\) de Cohen, el riesgo relativo o el intervalo de confianza del parámetro. El IC indica tanto si el efecto es significativo como qué magnitud tiene.
Errores de tipo I y tipo II
En cualquier contraste de hipótesis pueden cometerse dos tipos de error:
| \(H_0\) verdadera | \(H_0\) falsa | |
|---|---|---|
| Rechazar \(H_0\) | Error de tipo I (\(\alpha\)) | Correcto (potencia \(= 1-\beta\)) |
| No rechazar \(H_0\) | Correcto | Error de tipo II (\(\beta\)) |
- Error de tipo I (falso positivo): rechazar \(H_0\) cuando es verdadera. Probabilidad \(= \alpha\), controlada por el nivel de significación.
- Error de tipo II (falso negativo): no rechazar \(H_0\) cuando es falsa. Probabilidad \(= \beta\).
- Potencia \(= 1 - \beta\): probabilidad de rechazar correctamente una \(H_0\) falsa.

El compromiso: reducir \(\alpha\) (desplazar el valor crítico a la derecha) reduce los errores de tipo I pero aumenta los de tipo II (\(\beta\)). Para \(\alpha\) fijo, aumentar \(n\) reduce ambos errores simultáneamente.
Ejemplo completo: duración de las baterías
Un fabricante afirma que sus baterías duran \(\mu_0 = 20\) horas. Un investigador muestrea 30 baterías y obtiene \(\bar{x} = 19{,}5\) horas, \(S = 1{,}2\) horas. Contrasta con \(\alpha = 0{,}05\).
Hipótesis: \(H_0: \mu = 20\) frente a \(H_1: \mu < 20\) (unilateral, cola izquierda).
Estadístico del contraste:
\[t = \frac{19{,}5 - 20}{1{,}2/\sqrt{30}} = \frac{-0{,}5}{0{,}219} \approx -2{,}28\]
Valor crítico: \(t_{0{,}05,\; 29} = -1{,}699\).
P-valor: \(P(T_{29} < -2{,}28) \approx 0{,}015\).
Decisión: como \(t = -2{,}28 < -1{,}699\) y \(p = 0{,}015 < 0{,}05\), rechazamos \(H_0\).
Conclusión: hay evidencia significativa al nivel del 5% de que la duración media de las baterías es inferior a 20 horas. La afirmación del fabricante parece estar sobrevalorada.
Tamaño muestral y potencia
La potencia es la probabilidad de rechazar \(H_0\) cuando \(H_1\) es verdadera. Para un contraste \(t\) de una muestra que detecta una diferencia \(\delta = \mu_1 - \mu_0\) con \(\sigma\) conocida:
\[n \geq \frac{(z_{\alpha} + z_{\beta})^2 \sigma^2}{\delta^2}\]
Para el ejemplo de las baterías: supón que la media real es \(\mu_1 = 19{,}5\) horas (\(\delta = 0{,}5\)), \(\sigma = 1{,}2\), \(\alpha = 0{,}05\), potencia deseada \(= 0{,}80\) (\(z_\beta = 0{,}842\)):
\[n \geq \frac{(1{,}645 + 0{,}842)^2 \times 1{,}44}{0{,}25} = \frac{6{,}185 \times 1{,}44}{0{,}25} = \frac{8{,}91}{0{,}25} \approx 36\]
Con \(n = 30\) (la muestra real), la potencia es ligeramente inferior al 80%, lo que explica que el contraste apenas rechazara \(H_0\).
💡 Guía práctica
- Especifica siempre \(H_0\), \(H_1\), \(\alpha\) y el contraste antes de recoger los datos.
- Informa el p-valor y el tamaño del efecto, no solo “significativo” o “no significativo”.
- El contraste bilateral es la opción segura por defecto, salvo que haya una hipótesis direccional clara establecida de antemano.
- Para un estudio nuevo, calcula el \(n\) necesario para lograr al menos un 80% de potencia antes de recoger los datos.
- \(p > 0{,}05\) no significa que \(H_0\) sea verdadera: significa que los datos no aportan evidencia suficiente para rechazarla. La ausencia de evidencia no es evidencia de ausencia.