INICIO

Muestreo aleatorio simple

El muestreo aleatorio simple (MAS) es el método de muestreo probabilístico de referencia: cada unidad de la población tiene la misma probabilidad de ser seleccionada y toda posible muestra de tamaño \(n\) es igualmente probable. Es el diseño más sencillo y el punto de comparación respecto al que se evalúan otros métodos.

Definición

En el muestreo aleatorio simple, se seleccionan \(n\) unidades de una población de tamaño \(N\) tal que:

Cada unidad tiene una probabilidad de selección de \(n/N\).
Todo posible subconjunto de tamaño \(n\) es igualmente probable.

Esto requiere un marco muestral completo: una lista de todas las unidades de la población a partir de la cual se extrae la muestra. Sin un marco, el MAS verdadero no es posible.

Con vs sin reemplazamiento

MAS con reemplazamiento

Cada unidad seleccionada se devuelve a la población antes de la siguiente extracción. Una unidad puede aparecer más de una vez en la muestra. Cada extracción es independiente: la muestra consiste en \(n\) observaciones independientes e idénticamente distribuidas (i.i.d.).

\[P(\text{unidad } i \text{ seleccionada en cualquier extracción}) = \frac{1}{N}\]

MAS sin reemplazamiento

Cada unidad seleccionada se retira de la población. Ninguna unidad aparece más de una vez. Las extracciones no son independientes, pero los estimadores son más eficientes porque la misma unidad no puede aportar información redundante.

\[P(\text{unidad } i \text{ seleccionada}) = \frac{n}{N}\]

En la práctica, el muestreo sin reemplazamiento se usa casi siempre. El muestreo con reemplazamiento es principalmente una conveniencia teórica (simplifica las demostraciones) y es el modelo que se asume en el remuestreo bootstrap.

Gráfico de puntos mostrando una población de 80 unidades en una cuadrícula con 15 unidades seleccionadas aleatoriamente destacadas en rojo

Cada unidad (azul) tiene la misma probabilidad de ser seleccionada. Las unidades rojas son la muestra: sus posiciones en la cuadrícula no son sistemáticas ni están agrupadas, lo que refleja la verdadera aleatoriedad.

Estimadores bajo el MAS

Bajo el MAS sin reemplazamiento, los estimadores estándar para la media y la proporción poblacional son:

\[\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, \qquad \hat{p} = \frac{x}{n}\]

Sus varianzas incluyen la corrección por población finita (CPF):

\[\text{Var}(\bar{x}) = \frac{\sigma^2}{n}\left(1 - \frac{n}{N}\right) = \frac{\sigma^2}{n} \cdot \text{CPF}\]

El factor CPF \((1 - n/N)\) tiene en cuenta que el muestreo sin reemplazamiento es más eficiente que con reemplazamiento. Cuando \(n/N < 0{,}05\) (la muestra es menos del 5% de la población), la CPF es próxima a 1 y puede ignorarse. Para poblaciones grandes respecto a la muestra, el MAS con y sin reemplazamiento dan errores estándar prácticamente idénticos.

Tamaño muestral

Para estimar una proporción \(p\) con margen de error \(d\) al nivel de confianza \(1-\alpha\), el tamaño muestral necesario de una población finita de tamaño \(N\) es:

\[n = \frac{N \cdot z_{\alpha/2}^2 \cdot p(1-p)}{(N-1) \cdot d^2 + z_{\alpha/2}^2 \cdot p(1-p)}\]

Cuando \(N\) es muy grande (o desconocido), la CPF desaparece y la fórmula se simplifica a \(n = z_{\alpha/2}^2 p(1-p)/d^2\).

Encuesta de satisfacción de clientes

Una cadena de supermercados quiere estimar la proporción de clientes satisfechos entre sus 50.000 titulares de tarjeta de fidelización. Objetivo: margen de error \(\pm 5\%\) al 95% de confianza. Usando \(p = 0{,}5\) (caso más conservador):

\[n = \frac{50000 \times 1{,}96^2 \times 0{,}25}{49999 \times 0{,}05^2 + 1{,}96^2 \times 0{,}25} = \frac{48020}{124{,}998 + 0{,}9604} \approx 381\]

Se necesita una muestra de 381 clientes. Como \(381/50000 = 0{,}76\%\), la CPF no tiene casi ningún efecto aquí.

Cómo seleccionar la muestra en la práctica

Con un marco muestral numerado, extrae la muestra usando un generador de números aleatorios. En R:

# Población de N = 1000, muestra n = 100 sin reemplazamiento
set.seed(42)
sample(1:1000, size = 100, replace = FALSE)

# Con reemplazamiento
sample(1:1000, size = 100, replace = TRUE)

Para el muestreo físico (listas en papel, unidades físicas), una tabla de números aleatorios o un sorteo (papeletas numeradas extraídas de un recipiente) logra el mismo resultado.

Ventajas y limitaciones

El MAS es insesgado y sus errores estándar son fáciles de calcular. Es el punto de partida natural para cualquier diseño de muestreo. Sin embargo, tiene limitaciones prácticas:

⚠️ El MAS es ineficiente para poblaciones heterogéneas e impracticable sin un marco completo

Dos problemas principales:

Sin marco muestral completo: si no se pueden listar todas las unidades de la población, no es posible extraer una muestra verdaderamente aleatoria. Las encuestas en línea, las encuestas telefónicas y las entrevistas de interceptación usan muestras de conveniencia, no MAS.
Poblaciones heterogéneas: si la población tiene subgrupos diferenciados (grupos de edad, regiones, niveles de ingresos), el MAS puede representar en exceso o en defecto algunos de ellos por azar. El muestreo estratificado garantiza la representación de cada subgrupo y es más eficiente.

Una muestra de 400 personas extraída aleatoriamente de un país de 40 millones puede, por azar, incluir muy pocas personas mayores o muy pocos residentes rurales. El muestreo estratificado evita esto.

💡 Cuándo el MAS es la elección adecuada

El MAS funciona mejor cuando:

Se dispone de un marco muestral completo y actualizado.
La población es relativamente homogénea (baja variabilidad entre unidades).
El tamaño muestral es pequeño respecto a la población (\(n/N < 5\%\)).
La sencillez de aplicación importa más que la máxima eficiencia.

Para poblaciones heterogéneas o cuando deben estar representados ciertos subgrupos, el muestreo estratificado es más adecuado. Para poblaciones geográficamente dispersas sin un marco completo, el muestreo por conglomerados o polietápico es más práctico.