Distribución binomial negativa

La distribución binomial negativa modela el número de fracasos antes de alcanzar un número objetivo de éxitos en una secuencia de ensayos de Bernoulli independientes. También se usa ampliamente como modelo flexible para datos de recuento con sobredispersión, donde la varianza supera a la media.

Definición

Una variable aleatoria \(X\) sigue una distribución binomial negativa con parámetros \(r > 0\) (número de éxitos) y \(p \in (0,1)\) (probabilidad de éxito por ensayo), escrita \(X \sim \text{NegBin}(r, p)\), si:

\[P(X = k) = \binom{k + r - 1}{k} p^r (1-p)^k, \quad k = 0, 1, 2, \ldots\]

donde \(k\) es el número de fracasos antes del \(r\)-ésimo éxito.

La binomial negativa generaliza la distribución geométrica: cuando \(r = 1\), se reduce al número de fracasos antes del primer éxito.

⚠️ Dos parametrizaciones: comprueba cuál usa tu software

La binomial negativa tiene dos parametrizaciones habituales:

1. Contar fracasos (usada arriba): \(X\) = número de fracasos antes de \(r\) éxitos. Parámetros: \(r\) (éxitos) y \(p\) (probabilidad de éxito). Es la versión de los libros de texto.

2. Modelo de sobredispersión (usado en R, Python y la mayoría del software de regresión): \(X\) = recuento de eventos, parametrizado por la media \(\mu\) y el parámetro de dispersión \(r\) (también llamado size). La PMF es:

\[P(X = k) = \binom{k + r - 1}{k} \left(\frac{r}{r + \mu}\right)^r \left(\frac{\mu}{r + \mu}\right)^k\]

con \(\text{Var}(X) = \mu + \mu^2/r > \mu\). Cuando \(r \to \infty\), la varianza se aproxima a la media y la distribución converge a Poisson.

En R: dnbinom(x, size = r, prob = p) usa la parametrización 1; dnbinom(x, size = r, mu = mu) usa la parametrización 2.

Función de masa de probabilidad y CDF

La CDF acumula la PMF:

\[F(k) = P(X \leq k) = \sum_{i=0}^{k} \binom{i+r-1}{i} p^r (1-p)^i\]

PMF y CDF de la distribución binomial negativa con r=5 y p=0,5

A medida que el parámetro de dispersión r aumenta, la binomial negativa converge a Poisson (misma media, menor sobredispersión)

Figure 1: A medida que el parámetro de dispersión r aumenta, la binomial negativa converge a Poisson (misma media, menor sobredispersión)

Propiedades

Para \(X \sim \text{NegBin}(r, p)\) en la parametrización de fracasos antes de éxitos:

  1. Valor esperado (media)

\[E(X) = \frac{r(1-p)}{p}\]

  1. Varianza

\[\text{Var}(X) = \frac{r(1-p)}{p^2}\]

Como \(\text{Var}(X) = E(X)/p > E(X)\) para \(p < 1\), la binomial negativa siempre tiene varianza mayor que su media: es sobredispersión por construcción.

  1. Asimetría

\[\text{Asimetría} = \frac{2 - p}{\sqrt{r(1-p)}}\]

  1. Curtosis

\[g_2 = \frac{6}{r} + \frac{p^2}{r(1-p)}\]

  1. Moda

\[\text{Moda} = \left\lfloor \frac{(r-1)(1-p)}{p} \right\rfloor \quad \text{para } r > 1\]

Cuando \(r = 1\) (geométrica), la moda es 0.

  1. Función cuantil

No existe expresión cerrada; se calcula numéricamente.

Ejemplo paso a paso

Un comercial farmacéutico necesita cerrar 3 acuerdos (\(r = 3\)). Cada llamada de ventas tiene éxito con probabilidad \(p = 0{,}2\). Sea \(X\) = número de llamadas fallidas antes del 3.er éxito, \(X \sim \text{NegBin}(3;\, 0{,}2)\).

Probabilidad de exactamente 7 fracasos antes del 3.er éxito:

\[P(X = 7) = \binom{9}{7}(0{,}2)^3(0{,}8)^7 = 36 \times 0{,}008 \times 0{,}2097 \approx 0{,}0604\]

Número esperado de llamadas fallidas:

\[E(X) = \frac{3 \times 0{,}8}{0{,}2} = 12 \text{ fracasos}\]

Varianza:

\[\text{Var}(X) = \frac{3 \times 0{,}8}{0{,}04} = 60\]

La desviación típica es \(\sqrt{60} \approx 7{,}75\), lo que refleja la gran dispersión: algunos comerciales cerrarán rápido, otros necesitarán muchas más llamadas.

La binomial negativa como modelo de sobredispersión

Un investigador de salud cuenta el número de visitas al médico por año de 500 pacientes. La media muestral es 3,2 visitas y la varianza muestral es 8,7. Como la varianza (8,7) es mucho mayor que la media (3,2), un modelo de Poisson es inadecuado.

Ajustando una binomial negativa con \(\mu = 3{,}2\) y \(r\) estimado de 2,1:

\[\text{Var}(X) = \mu + \frac{\mu^2}{r} = 3{,}2 + \frac{10{,}24}{2{,}1} \approx 3{,}2 + 4{,}9 = 8{,}1\]

La binomial negativa captura la sobredispersión que la Poisson no puede modelar.

Example icon

Sobredispersión y conexión con la Poisson

La binomial negativa es la alternativa estándar a la Poisson cuando los datos de recuento muestran sobredispersión. Cuando \(r \to \infty\) con \(\mu = r(1-p)/p\) fijo, la binomial negativa converge a \(\text{Poisson}(\mu)\). El parámetro \(r\) controla cuánta varianza extra hay respecto a la Poisson: \(r\) pequeño significa sobredispersión alta, \(r\) grande significa próxima a Poisson.

En la práctica, se ajusta un modelo de regresión binomial negativa siempre que una regresión de Poisson muestre signos de sobredispersión (devianza residual mucho mayor que los grados de libertad, o un test de dispersión significativo).

💡 Relación con otras distribuciones

  • Geométrica: NegBin\((1, p)\) = Geométrica\((p)\) (fracasos antes del primer éxito).
  • Poisson: caso límite cuando \(r \to \infty\) con la media fija.
  • Binomial: la binomial negativa cuenta fracasos en una secuencia ilimitada; la binomial cuenta éxitos en un número fijo de ensayos.
  • Mezcla Gamma-Poisson: la binomial negativa surge de forma natural cuando \(\lambda\) en un modelo de Poisson sigue una distribución Gamma, lo que explica por qué maneja bien la heterogeneidad poblacional.