Distribución hipergeométrica

La distribución hipergeométrica modela el número de éxitos al extraer una muestra sin reemplazamiento de una población finita. A diferencia de la binomial, tiene en cuenta que cada extracción cambia la composición del resto de la población.

Definición

Una variable aleatoria \(X\) sigue una distribución hipergeométrica si cuenta el número de éxitos en una muestra de tamaño \(n\) extraída sin reemplazamiento de una población de tamaño \(N\) que contiene \(K\) éxitos. Se escribe \(X \sim \text{Hipergeométrica}(N, K, n)\):

\[P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}, \quad \max(0,\, n-(N-K)) \leq k \leq \min(K, n)\]

El numerador cuenta las formas de elegir \(k\) éxitos de los \(K\) disponibles y \(n-k\) fracasos de los \(N-K\) disponibles. El denominador cuenta todas las formas de elegir \(n\) elementos de \(N\).

⚠️ Hipergeométrica vs binomial: la distinción clave

Ambas distribuciones cuentan éxitos en una muestra, pero:

  • Binomial: muestreo con reemplazamiento. Cada extracción es independiente y \(p\) permanece constante.
  • Hipergeométrica: muestreo sin reemplazamiento. Cada extracción cambia la población, por lo que las extracciones son dependientes y \(p\) varía después de cada una.

Usa la hipergeométrica cuando la muestra represente una fracción significativa de la población (aproximadamente \(n/N > 0{,}05\)). Cuando la población es grande en relación con la muestra, ambas distribuciones dan resultados casi idénticos y la binomial es más sencilla de usar.

Función de masa de probabilidad y CDF

La CDF suma la PMF hasta \(k\):

\[F(k) = P(X \leq k) = \sum_{i=0}^{k} \frac{\binom{K}{i}\binom{N-K}{n-i}}{\binom{N}{n}}\]

PMF y CDF de la distribución hipergeométrica con N=100, K=10, n=20

Propiedades

Para \(X \sim \text{Hipergeométrica}(N, K, n)\), sea \(p = K/N\) la proporción de éxitos en la población:

  1. Valor esperado (media)

\[E(X) = n\frac{K}{N} = np\]

El número esperado de éxitos es el mismo que en la binomial con los mismos \(n\) y \(p = K/N\).

  1. Varianza

\[\text{Var}(X) = n\frac{K}{N}\left(1 - \frac{K}{N}\right)\frac{N-n}{N-1} = np(1-p)\frac{N-n}{N-1}\]

El factor \(\frac{N-n}{N-1}\) es la corrección por población finita (CPF). Siempre es menor que 1, lo que hace que la varianza hipergeométrica sea menor que la varianza binomial \(np(1-p)\). Esto tiene sentido intuitivo: muestrear sin reemplazamiento reduce la incertidumbre porque no se puede obtener el mismo elemento dos veces.

  1. Asimetría

\[\text{Asimetría} = \frac{(N-2K)(N-2n)\sqrt{N-1}}{(N-2)\sqrt{nK(N-K)(N-n)}}\]

  1. Curtosis

\[g_2 = \frac{(N-1)N^2[N(N+1) - 6K(N-K) - 6n(N-n)] + 6nK(N-K)(N-n)(5N-6)}{n K(N-K)(N-n)(N-2)(N-3)}\]

En la práctica, la curtosis se calcula numéricamente para valores concretos de los parámetros.

  1. Moda

\[\text{Moda} = \left\lfloor \frac{(n+1)(K+1)}{N+2} \right\rfloor\]

  1. Función cuantil

No existe expresión cerrada; se calcula numéricamente.

La corrección por población finita

El factor CPF \(\frac{N-n}{N-1}\) captura el efecto de la población finita sobre la varianza:

  • Cuando \(n = 1\): CPF \(\approx 1\), la varianza es igual a la varianza binomial.
  • Cuando \(n = N\) (censo): CPF \(= 0\), la varianza es cero, pues se ha medido toda la población, así que no hay incertidumbre muestral.
  • Cuando \(n/N\) es pequeño (digamos por debajo del 5%): CPF \(\approx 1\) y la hipergeométrica se aproxima bien mediante la binomial.
La CPF en el muestreo de encuestas

Una empresa tiene 200 empleados, 60 de los cuales son directivos (\(K = 60\), \(N = 200\)). Una encuesta muestrea 40 empleados (\(n = 40\)).

Varianza binomial (ignorando la población finita): \[np(1-p) = 40 \times 0{,}3 \times 0{,}7 = 8{,}4\]

Varianza hipergeométrica (con CPF): \[8{,}4 \times \frac{200-40}{200-1} = 8{,}4 \times \frac{160}{199} \approx 6{,}75\]

La varianza real es un 20% menor de lo que indicaría la binomial. Cuando \(n/N = 40/200 = 20\%\), la corrección es sustancial.

Example icon

Ejemplo paso a paso

Un lote de fábrica contiene 100 artículos, 10 de los cuales son defectuosos (\(N=100\), \(K=10\)). Un inspector de calidad extrae 20 artículos sin reemplazamiento (\(n=20\)). Sea \(X\) = número de artículos defectuosos encontrados.

Probabilidad de exactamente 3 artículos defectuosos:

\[P(X=3) = \frac{\binom{10}{3}\binom{90}{17}}{\binom{100}{20}} \approx 0{,}141\]

Hay un 14,1% de probabilidad de encontrar exactamente 3 artículos defectuosos.

Número esperado de defectuosos:

\[E(X) = 20 \times \frac{10}{100} = 2\]

Varianza:

\[\text{Var}(X) = 20 \times 0{,}1 \times 0{,}9 \times \frac{80}{99} \approx 1{,}455\]

Probabilidad de encontrar como máximo 3 defectuosos:

\[F(3) = P(X=0) + P(X=1) + P(X=2) + P(X=3) \approx 0{,}069 + 0{,}271 + 0{,}385 + 0{,}141 = 0{,}866\]

Aproximadamente el 87% de las muestras de tamaño 20 contendrán 3 o menos artículos defectuosos.

Ejemplo con extracción de cartas

Una baraja estándar tiene 52 cartas, 4 de las cuales son ases (\(N=52\), \(K=4\)). Se reparten 5 cartas (\(n=5\)).

Probabilidad de exactamente 2 ases:

\[P(X=2) = \frac{\binom{4}{2}\binom{48}{3}}{\binom{52}{5}} = \frac{6 \times 17{.}296}{2{.}598{.}960} \approx 0{,}0399\]

Número esperado de ases: \(E(X) = 5 \times 4/52 \approx 0{,}385\).

Example icon

💡 Cuándo usar hipergeométrica vs binomial

Usa la hipergeométrica cuando:

  • El muestreo es sin reemplazamiento de una población finita.
  • La muestra representa una fracción sustancial de la población (\(n/N > 0{,}05\)).

Usa la binomial cuando:

  • El muestreo es con reemplazamiento.
  • La población es lo suficientemente grande como para que \(n/N \leq 0{,}05\): en ese caso la CPF \(\approx 1\) y la binomial da resultados casi idénticos con cálculos más sencillos.

Una directriz práctica habitual: si se muestrea menos del 5% de la población, la aproximación binomial es adecuada.