INICIO

Intervalo de confianza para la diferencia entre dos proporciones

El intervalo de confianza para \(p_1 - p_2\) estima el rango de valores plausibles para la verdadera diferencia entre dos proporciones poblacionales. Es la herramienta estándar para comparar tasas de conversión, tasas de respuesta o cualquier variable binaria entre dos grupos independientes.

Fórmula

Dadas dos muestras independientes con \(x_1\) éxitos en \(n_1\) ensayos y \(x_2\) éxitos en \(n_2\) ensayos, las proporciones muestrales son \(\hat{p}_1 = x_1/n_1\) y \(\hat{p}_2 = x_2/n_2\).

Un IC al \((1-\alpha)\) para \(p_1 - p_2\) es:

\[(\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\]

El error estándar de la diferencia combina los EE individuales en cuadratura (raíz cuadrada de la suma de varianzas), ya que las dos muestras son independientes.

La aproximación normal es válida cuando los cuatro recuentos son al menos 10:

\[n_1\hat{p}_1 \geq 10, \quad n_1(1-\hat{p}_1) \geq 10, \quad n_2\hat{p}_2 \geq 10, \quad n_2(1-\hat{p}_2) \geq 10\]

⚠️ Cuándo falla la aproximación normal

Cuando alguno de los cuatro recuentos es menor que 10, la aproximación normal no es fiable. En ese caso:

Usa el test exacto de Fisher para un contraste de hipótesis.
Usa el intervalo de Newcombe (basado en los intervalos de Wilson para cada proporción por separado), que mantiene una mejor cobertura sin necesitar muestras grandes.
Para eventos muy raros, considera la aproximación de Poisson.

La misma condición que valida el IC de la proporción individual debe cumplirse en ambos grupos para validar el IC de la diferencia.

Distribución muestral de la diferencia

Por independencia y el TCL, \(\hat{p}_1 - \hat{p}_2\) es aproximadamente normal con:

\[E[\hat{p}_1 - \hat{p}_2] = p_1 - p_2\]

\[\text{EE}(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\]

Distribución muestral de la diferencia entre dos proporciones con el intervalo de confianza al 95% destacado

La línea roja discontinua en 0 representa “ninguna diferencia”. Como 0 cae fuera del IC, la diferencia es estadísticamente significativa al nivel del 5%.

Ejemplos paso a paso

Ejemplo 1: test A/B

Una plataforma de comercio electrónico prueba dos diseños de página de aterrizaje. La versión A se muestra a 500 visitantes, 175 de los cuales realizan una compra. La versión B se muestra a otros 500 visitantes, 140 de los cuales compran.

\[\hat{p}_A = 175/500 = 0{,}350, \qquad \hat{p}_B = 140/500 = 0{,}280\]

Comprobación de condiciones:

\[n_A\hat{p}_A = 175 \geq 10, \quad n_A(1-\hat{p}_A) = 325 \geq 10 \checkmark\] \[n_B\hat{p}_B = 140 \geq 10, \quad n_B(1-\hat{p}_B) = 360 \geq 10 \checkmark\]

Error estándar:

\[\text{EE} = \sqrt{\frac{0{,}350 \times 0{,}650}{500} + \frac{0{,}280 \times 0{,}720}{500}} = \sqrt{0{,}000455 + 0{,}000403} = \sqrt{0{,}000858} \approx 0{,}0293\]

IC al 95%:

\[0{,}350 - 0{,}280 \pm 1{,}960 \times 0{,}0293 = 0{,}070 \pm 0{,}057 = (0{,}013;\; 0{,}127)\]

La versión A convierte entre 1,3 y 12,7 puntos porcentuales más que la versión B. Como el intervalo excluye el 0, la diferencia es estadísticamente significativa. La versión A es mejor.

Ejemplo 2: ensayo clínico

Un ensayo aleatorizado compara la tasa de respuesta de un nuevo fármaco frente a placebo. Grupo de tratamiento: 45 respondedores de 120. Grupo placebo: 22 respondedores de 118.

\[\hat{p}_T = 45/120 = 0{,}375, \qquad \hat{p}_P = 22/118 = 0{,}186\]

\[\text{EE} = \sqrt{\frac{0{,}375 \times 0{,}625}{120} + \frac{0{,}186 \times 0{,}814}{118}} = \sqrt{0{,}001953 + 0{,}001283} \approx 0{,}0569\]

IC al 95%:

\[0{,}375 - 0{,}186 \pm 1{,}960 \times 0{,}0569 = 0{,}189 \pm 0{,}111 = (0{,}078;\; 0{,}300)\]

El tratamiento aumenta la tasa de respuesta entre 7,8 y 30,0 puntos porcentuales. Es una mejora clínicamente relevante y estadísticamente significativa.

Gráfico de barras con las proporciones e intervalos de confianza para los dos grupos en los ejemplos de test A/B y ensayo clínico

Conexión con los contrastes de hipótesis

Un IC al \((1-\alpha)\) para \(p_1 - p_2\) está directamente relacionado con un contraste bilateral de \(H_0: p_1 = p_2\) al nivel de significación \(\alpha\):

Si el IC excluye el 0: rechaza \(H_0\). Hay evidencia significativa de una diferencia.
Si el IC incluye el 0: no se rechaza \(H_0\). Los datos son compatibles con proporciones iguales.

El estadístico del contraste usa una proporción combinada \(\hat{p} = (x_1 + x_2)/(n_1 + n_2)\) bajo \(H_0\), mientras que el IC usa las proporciones individuales. El IC es más informativo porque muestra la magnitud y la dirección de la diferencia, no solo si es significativa.

Interpretación del IC para una diferencia de proporciones

Tres posibles resultados, ilustrados con ejemplos:

IC = (0,013; 0,127): completamente positivo. El grupo 1 tiene mayor proporción. Significativo.
IC = (-0,043; 0,083): incluye el 0. No se detecta diferencia significativa.
IC = (-0,127; -0,013): completamente negativo. El grupo 2 tiene mayor proporción. Significativo.

Un IC que excluye el 0 por muy poco (por ejemplo, \((-0{,}001;\, 0{,}082)\)) es muy distinto a uno que lo incluye con holgura (por ejemplo, \((-0{,}05;\, 0{,}07)\)). Informa siempre el intervalo completo, no solo “significativo” o “no significativo”.

💡 Guía práctica

Verifica la condición de los cuatro recuentos (\(\geq 10\)) antes de aplicar la fórmula.
Para recuentos pequeños o eventos raros, usa el test exacto de Fisher o el intervalo de Newcombe.
Informa como: “\(\hat{p}_1 - \hat{p}_2 = 0{,}07\) (IC al 95%: 0,013 a 0,127)”.
Para la planificación del tamaño muestral, consulta el post de cálculo del tamaño muestral: la fórmula para dos proporciones usa la misma estructura que para una proporción, pero tiene en cuenta ambos grupos.
En R: prop.test(c(x1, x2), c(n1, n2)) calcula el IC y el contraste simultáneamente.