Muestreo estratificado
El muestreo estratificado divide la población en subgrupos homogéneos (estratos) y extrae una muestra independiente de cada uno. Al garantizar la representación de todos los estratos y reducir la varianza dentro de cada estrato, es casi siempre más eficiente que el muestreo aleatorio simple para poblaciones heterogéneas.
¿Por qué estratificar?
El MAS puede, por azar, representar en exceso o en defecto subgrupos importantes. La estratificación lo evita y reduce el error estándar aprovechando el hecho de que las unidades dentro de cada estrato se parecen más entre sí que a las unidades de otros estratos. La ganancia en eficiencia depende de cuánto difieren las medias de los estratos: cuanto más heterogénea sea la población (y más homogénea dentro de cada estrato), mayor será la ventaja frente al MAS.
Procedimiento
Dada una población de \(N\) unidades dividida en \(H\) estratos de tamaños \(N_1, N_2, \ldots, N_H\):
- Define estratos mutuamente excluyentes y exhaustivos (cada unidad pertenece exactamente a un estrato).
- Distribuye el tamaño muestral total \(n\) entre los estratos: \(n_1, n_2, \ldots, n_H\) con \(\sum n_h = n\).
- Extrae una muestra aleatoria simple de tamaño \(n_h\) de forma independiente dentro de cada estrato.
El estimador estratificado de la media poblacional es:
\[\bar{y}_{st} = \sum_{h=1}^{H} W_h \bar{y}_h, \qquad W_h = \frac{N_h}{N}\]
donde \(\bar{y}_h\) es la media muestral dentro del estrato \(h\) y \(W_h\) es su peso poblacional. Su varianza es:
\[\text{Var}(\bar{y}_{st}) = \sum_{h=1}^{H} W_h^2 \cdot \frac{S_h^2}{n_h} \cdot \left(1 - \frac{n_h}{N_h}\right)\]
Métodos de asignación
Asignación proporcional
Cada estrato contribuye a la muestra en proporción a su tamaño:
\[n_h = n \cdot \frac{N_h}{N} = n \cdot W_h\]
Sencilla de aplicar y autoponderada (la media muestral global \(\bar{y}\) es un estimador válido de la media poblacional sin necesidad de ponderación). Funciona bien cuando las varianzas dentro de los estratos son similares entre ellos.
Asignación óptima (de Neyman)
Asigna más observaciones a los estratos más grandes y más variables:
\[n_h = n \cdot \frac{N_h S_h}{\sum_{j=1}^{H} N_j S_j}\]
donde \(S_h\) es la desviación típica dentro del estrato. La asignación de Neyman minimiza \(\text{Var}(\bar{y}_{st})\) para un \(n\) total fijo. Requiere una estimación previa de \(S_h\) para cada estrato (de un estudio piloto o de datos históricos).
Cuando \(S_h\) es igual en todos los estratos, la asignación de Neyman se reduce a la proporcional.

Ejemplo completo: encuesta a empleados
Una empresa con 1.000 empleados en tres departamentos quiere encuestar a 100 empleados sobre satisfacción laboral. Los departamentos son:
| Departamento | \(N_h\) | \(W_h\) | \(S_h\) estimada |
|---|---|---|---|
| Ventas | 500 | 0,50 | 8,2 |
| Ingeniería | 300 | 0,30 | 12,5 |
| RRHH | 200 | 0,20 | 5,1 |
Asignación proporcional:
\[n_\text{Ventas} = 100 \times 0{,}50 = 50, \quad n_\text{Ing} = 30, \quad n_\text{RRHH} = 20\]
Asignación de Neyman:
\[\sum N_h S_h = 500\times8{,}2 + 300\times12{,}5 + 200\times5{,}1 = 4100 + 3750 + 1020 = 8870\]
\[n_\text{Ventas} = 100 \times \frac{4100}{8870} \approx 46, \quad n_\text{Ing} = 100 \times \frac{3750}{8870} \approx 42, \quad n_\text{RRHH} = 100 \times \frac{1020}{8870} \approx 12\]
La asignación de Neyman desplaza observaciones de Ventas y RRHH (menor variabilidad) hacia Ingeniería (mayor \(S_h\)), donde la información adicional tiene más valor.

Ganancia de eficiencia frente al MAS
La varianza de la media estratificada bajo asignación proporcional satisface:
\[\text{Var}(\bar{y}_{st,\text{prop}}) \leq \text{Var}(\bar{y}_{MAS})\]
con igualdad solo cuando todas las medias de los estratos son idénticas (ningún beneficio de la estratificación). La ganancia aumenta con la varianza entre estratos respecto a la varianza total.
⚠️ La estratificación puede ser perjudicial si los estratos están mal definidos
El muestreo estratificado solo es beneficioso cuando:
- Los estratos son internamente homogéneos (baja varianza dentro del estrato).
- Los estratos difieren significativamente entre sí (alta varianza entre estratos).
- La variable de estratificación está correlacionada con la variable de interés.
Si los estratos se definen por una variable no relacionada con el resultado (por ejemplo, orden alfabético de apellidos para un resultado de salud), la estratificación no aporta ningún beneficio y complica innecesariamente la gestión de muestras separadas. En el peor caso, unos estratos mal definidos pueden aumentar la carga administrativa sin reducir el error estándar.
💡 Elección de las variables de estratificación
Las buenas variables de estratificación son las fuertemente correlacionadas con el resultado. Opciones habituales:
- Variables demográficas (edad, sexo, región) para encuestas de población.
- Tamaño (ingresos de la empresa, camas hospitalarias) para encuestas a empresas o instituciones.
- Resultado histórico (puntuación de satisfacción previa, ventas del año anterior) cuando se dispone de él.
Una regla práctica útil: si se puede predecir el resultado de forma moderada a partir de la variable de estratificación, la estratificación será eficiente. Si no, el MAS o el muestreo sistemático puede ser más sencillo e igualmente efectivo.