Distribución F de Snedecor
La distribución F surge como el cociente de dos variables chi-cuadrado divididas por sus grados de libertad. Es siempre no negativa y asimétrica a la derecha, y es la distribución de referencia para el ANOVA, los tests F en regresión y los contrastes de comparación de dos varianzas.
Definición
Si \(U \sim \chi^2(d_1)\) y \(V \sim \chi^2(d_2)\) son independientes, entonces:
\[F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2)\]
\(F\) sigue una distribución F de Snedecor con \(d_1\) grados de libertad del numerador y \(d_2\) grados de libertad del denominador. Su PDF es:
\[f(x) = \frac{\sqrt{\dfrac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1+d_2}}}}{x\, B(d_1/2,\, d_2/2)}, \quad x > 0\]
donde \(B\) es la función beta. La CDF no tiene forma cerrada y se calcula numéricamente.
⚠️ El orden de los grados de libertad importa
\(F(d_1, d_2) \neq F(d_2, d_1)\). Los gl del numerador \(d_1\) van primero y corresponden a la varianza que se contrasta (por ejemplo, la varianza entre grupos en el ANOVA). Los gl del denominador \(d_2\) van en segundo lugar y corresponden a la varianza de referencia (por ejemplo, la varianza dentro de los grupos). Escribe y reporta siempre en el orden correcto: \(F(d_1, d_2)\).
La relación recíproca: si \(X \sim F(d_1, d_2)\), entonces \(1/X \sim F(d_2, d_1)\).
Efecto de los grados de libertad
Tanto \(d_1\) como \(d_2\) afectan a la forma:
- \(d_1\) o \(d_2\) pequeños: fuertemente asimétrica a la derecha con una cola larga.
- \(d_1\) y \(d_2\) grandes: la distribución se vuelve más simétrica y se concentra cerca de 1.
- \(d_1 = 1\): la distribución tiene una singularidad en 0 y decrece lentamente.
- \(d_2 \to \infty\): \(d_1 \cdot F(d_1, d_2) \to \chi^2(d_1)\).

Propiedades
Para \(X \sim F(d_1, d_2)\):
- Valor esperado (media)
\[E(X) = \frac{d_2}{d_2 - 2}, \quad \text{para } d_2 > 2\]
La media es siempre mayor que 1 y se aproxima a 1 cuando \(d_2 \to \infty\).
- Varianza
\[\text{Var}(X) = \frac{2d_2^2(d_1 + d_2 - 2)}{d_1(d_2-2)^2(d_2-4)}, \quad \text{para } d_2 > 4\]
- Asimetría
\[\text{Asimetría} = \frac{(2d_1 + d_2 - 2)\sqrt{8(d_2-4)}}{(d_2-6)\sqrt{d_1(d_1+d_2-2)}}, \quad \text{para } d_2 > 6\]
Siempre positiva: la distribución F es siempre asimétrica a la derecha.
- Moda
\[\text{Moda} = \frac{d_1 - 2}{d_1} \cdot \frac{d_2}{d_2 + 2}, \quad \text{para } d_1 > 2\]
- Función cuantil
No existe forma cerrada. Los valores críticos se leen de tablas F o se calculan con software. En R: qf(0.95, df1, df2).
Aplicaciones
ANOVA de un factor
El ANOVA contrasta si las medias de \(k\) grupos son todas iguales. El estadístico del contraste es:
\[F = \frac{\text{CM}_{\text{entre}}}{\text{CM}_{\text{dentro}}} = \frac{\text{SC}_{\text{entre}}/(k-1)}{\text{SC}_{\text{dentro}}/(n-k)} \sim F(k-1,\, n-k)\]
bajo \(H_0: \mu_1 = \mu_2 = \cdots = \mu_k\).
Un valor F grande significa que la variabilidad entre grupos es mucho mayor que la variabilidad dentro de los grupos, lo que es evidencia contra la igualdad de medias.
Se prueban tres tipos de abono en 5 parcelas cada uno (\(k=3\), \(n=15\)). La tabla ANOVA da:
| Fuente | SC | gl | CM | F |
|---|---|---|---|---|
| Entre grupos | 84,4 | 2 | 42,2 | 7,34 |
| Dentro de grupos | 69,0 | 12 | 5,75 | |
| Total | 153,4 | 14 |
Valor crítico: \(F_{0{,}95}(2,\, 12) \approx 3{,}89\).
Como \(7{,}34 > 3{,}89\), rechazamos \(H_0\): al menos un tipo de abono produce un rendimiento medio distinto (\(p \approx 0{,}008\)).
Test F en regresión
En regresión lineal múltiple con \(p\) predictores y \(n\) observaciones, el test F global contrasta si algún predictor es útil:
\[F = \frac{R^2/p}{(1-R^2)/(n-p-1)} \sim F(p,\, n-p-1)\]
bajo \(H_0\) de que todos los coeficientes de regresión son cero.
Un modelo de regresión con \(p = 4\) predictores se ajusta a \(n = 50\) observaciones. El modelo obtiene \(R^2 = 0{,}62\).
\[F = \frac{0{,}62/4}{0{,}38/45} = \frac{0{,}155}{0{,}00844} \approx 18{,}4\]
Valor crítico: \(F_{0{,}95}(4,\, 45) \approx 2{,}58\).
Como \(18{,}4 \gg 2{,}58\), rechazamos \(H_0\) con contundencia: el modelo explica una proporción significativa de la varianza (\(p < 0{,}001\)).
Contraste de igualdad de dos varianzas
Para contrastar \(H_0: \sigma_1^2 = \sigma_2^2\) con muestras de tamaños \(n_1\) y \(n_2\):
\[F = \frac{S_1^2}{S_2^2} \sim F(n_1 - 1,\, n_2 - 1)\]
bajo \(H_0\). Valores alejados de 1 (en cualquier dirección) sugieren varianzas desiguales.
Figure 1: Distribución F(2,12): la región de rechazo a α=0,05 comienza en el valor crítico 3,89
⚠️ El test F para igualdad de varianzas es sensible a la no normalidad
El contraste de cociente de varianzas \(F = S_1^2/S_2^2\) asume que ambas poblaciones son normales. Es muy sensible a las desviaciones de la normalidad: datos no normales pueden producir un resultado significativo incluso cuando las varianzas son iguales. Para alternativas más robustas, usa el test de Levene o el test de Bartlett, que son menos sensibles al supuesto de normalidad.
💡 Relación con otras distribuciones
- Chi-cuadrado: \(d_1 \cdot F(d_1, d_2) \xrightarrow{d_2\to\infty} \chi^2(d_1)\).
- t de Student: \(t(\nu)^2 = F(1, \nu)\). Elevar al cuadrado un estadístico t da un estadístico F con 1 gl en el numerador.
- Beta: si \(X \sim F(d_1, d_2)\), entonces \(\frac{d_1 X/d_2}{1 + d_1 X/d_2} \sim \text{Beta}(d_1/2,\, d_2/2)\).