INICIO

Tipos de errores en estadística

Todo contraste de hipótesis puede cometer dos tipos de error: rechazar una hipótesis nula verdadera (error de tipo I) o no rechazar una hipótesis nula falsa (error de tipo II). Comprender estos errores, sus probabilidades y el compromiso entre ellos es esencial para diseñar e interpretar correctamente los contrastes estadísticos.

Definición

Al tomar una decisión en un contraste de hipótesis, comparamos nuestra conclusión con la verdad desconocida. Son posibles cuatro resultados:

	\(H_0\) es verdadera	\(H_0\) es falsa
Rechazar \(H_0\)	Error de tipo I (\(\alpha\))	Decisión correcta (potencia \(= 1-\beta\))
No rechazar \(H_0\)	Decisión correcta	Error de tipo II (\(\beta\))

Error de tipo I (falso positivo)

Un error de tipo I ocurre cuando se rechaza \(H_0\) a pesar de que es verdadera. La probabilidad de este error es \(\alpha\), el nivel de significación. Al fijar \(\alpha = 0{,}05\), aceptamos un 5% de probabilidad de rechazar incorrectamente una hipótesis nula verdadera.

Error de tipo II (falso negativo)

Un error de tipo II ocurre cuando no se rechaza \(H_0\) a pesar de que es falsa. Su probabilidad es \(\beta\). La potencia del contraste es \(1 - \beta\): la probabilidad de detectar correctamente un efecto real. Un objetivo habitual es potencia \(= 0{,}80\).

Distribución normal mostrando las regiones de rechazo del error de tipo I y la región de aceptación para un contraste de hipótesis bilateral

Ejemplos del mundo real

Diagnóstico médico

\(H_0\): el paciente no tiene la enfermedad. \(H_1\): el paciente tiene la enfermedad.

Error de tipo I: el test indica que el paciente tiene la enfermedad cuando no es así (falso positivo). Consecuencia: ansiedad innecesaria, pruebas adicionales o tratamientos perjudiciales.
Error de tipo II: el test indica que el paciente está sano cuando en realidad tiene la enfermedad (falso negativo). Consecuencia: retraso en el tratamiento, progresión de la enfermedad.

En los programas de cribado de enfermedades graves, minimizar los errores de tipo II suele ser prioritario: pasar por alto un caso real puede ser mortal, mientras que un falso positivo solo lleva a una prueba confirmatoria.

Control de calidad

\(H_0\): el lote de producción cumple los estándares de calidad. \(H_1\): el lote es defectuoso.

Error de tipo I: rechazar un lote bueno (falsa alarma). Consecuencia: desperdicio innecesario y coste de producción.
Error de tipo II: aceptar un lote defectuoso. Consecuencia: productos defectuosos llegan al cliente.

El equilibrio entre ambos costes depende del producto. Para componentes críticos para la seguridad (piezas de aviación, dispositivos médicos), minimizar los errores de tipo II justifica tasas de error de tipo I más altas.

Sistema judicial

\(H_0\): el acusado es inocente. \(H_1\): el acusado es culpable.

Error de tipo I: condenar a una persona inocente. El criterio “más allá de toda duda razonable” fija \(\alpha\) muy bajo.
Error de tipo II: absolver a una persona culpable.

La mayoría de los sistemas judiciales aceptan deliberadamente tasas de error de tipo II más altas para minimizar las condenas erróneas.

El compromiso y cómo gestionarlo

Para un tamaño muestral fijo, reducir \(\alpha\) aumenta \(\beta\) (y reduce la potencia). La única forma de reducir ambos simultáneamente es aumentar \(n\).

La potencia de un contraste depende de cuatro factores:

\(\alpha\): un \(\alpha\) mayor aumenta la potencia pero también el riesgo de error de tipo I.
\(n\): muestras más grandes siempre aumentan la potencia.
Tamaño del efecto \(\delta\): las diferencias reales mayores son más fáciles de detectar.
\(\sigma\): las poblaciones menos variables dan mayor potencia.

Curvas de potencia mostrando cómo aumenta la potencia con el tamaño muestral para distintos tamaños del efecto

Para efectos pequeños (\(d = 0{,}25\)), lograr el 80% de potencia requiere 125 observaciones. Para efectos medianos (\(d = 0{,}5\)), bastan unas 35. Para efectos grandes (\(d = 0{,}8\)), son suficientes menos de 15. Por eso los estudios con poca potencia y muestras pequeñas a menudo no detectan efectos reales.

⚠️ Estudios con poca potencia: un problema sistémico

Muchos estudios publicados tienen poca potencia: usan tamaños muestrales demasiado pequeños para detectar de forma fiable los efectos que dicen estudiar. Un estudio con poca potencia que encuentra un resultado significativo puede estar detectando un efecto espuriamente grande (debido a la variabilidad muestral), mientras que uno que no encuentra significación puede simplemente haber sido incapaz de detectar un efecto real pero pequeño.

Calcula siempre la potencia antes de recoger los datos. Un estudio con potencia inferior a 0,50 tiene pocas probabilidades de ser informativo independientemente de su resultado.

💡 Guía práctica para gestionar los errores

Fija \(\alpha\) antes de recoger los datos, en función del coste de un error de tipo I en tu contexto.
Apunta a una potencia \(\geq 0{,}80\) (80%), idealmente 0,90 para estudios confirmatorios.
Usa el análisis de potencia para determinar \(n\) antes de iniciar la recogida de datos.
Cuando el coste de un error de tipo II sea alto (cribado médico, pruebas de seguridad), usa un \(\alpha\) mayor o un \(n\) más grande para aumentar la potencia.
Informa tanto \(\alpha\) como la potencia alcanzada para que los lectores puedan evaluar la fiabilidad de tus conclusiones.