INICIO

Distribución t de Student

La distribución t de Student es la que se usa cuando se quiere hacer inferencia sobre la media poblacional pero no se conoce la varianza poblacional. Tiene colas más pesadas que la normal y converge a ella a medida que crece el tamaño muestral, lo que la convierte en la herramienta estándar para los t-tests e intervalos de confianza.

Definición

Si \(Z \sim N(0,1)\) y \(V \sim \chi^2(\nu)\) son independientes, entonces:

\[T = \frac{Z}{\sqrt{V/\nu}} \sim t(\nu)\]

\(T\) sigue una distribución t de Student con \(\nu\) grados de libertad. Su PDF es:

\[f(x) = \frac{\Gamma\!\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\;\Gamma\!\left(\frac{\nu}{2}\right)} \left(1 + \frac{x^2}{\nu}\right)^{-(\nu+1)/2}, \quad -\infty < x < \infty\]

La distribución es simétrica alrededor de cero y tiene forma de campana como la normal, pero con colas más pesadas. Cuando \(\nu \to \infty\), \(t(\nu) \to N(0,1)\).

⚠️ ¿Quién es Student?

“Student” fue el seudónimo de William Sealy Gosset, estadístico que trabajaba en la cervecería Guinness de Dublín a principios del siglo XX. Guinness no permitía a sus empleados publicar investigaciones, así que Gosset publicó bajo el nombre “Student” en 1908. Desarrolló la distribución para trabajar con muestras pequeñas de cebada y lúpulo, uno de los orígenes más prácticos de un resultado estadístico fundamental.

Efecto de los grados de libertad

Los grados de libertad \(\nu\) controlan el peso de las colas:

\(\nu\) pequeño: colas muy pesadas. Los valores extremos son mucho más probables que bajo la normal. Con \(\nu = 1\), la distribución es una Cauchy, que no tiene media.
\(\nu \geq 30\): prácticamente indistinguible de \(N(0,1)\) para la mayoría de los propósitos.
\(\nu \to \infty\): converge exactamente a \(N(0,1)\).

PDF de la distribución t de Student para distintos grados de libertad comparada con la normal estándar

Propiedades

Para \(T \sim t(\nu)\):

Valor esperado (media)

\[E(T) = 0, \quad \text{para } \nu > 1\]

No definida para \(\nu = 1\) (distribución de Cauchy).

Varianza

\[\text{Var}(T) = \frac{\nu}{\nu - 2}, \quad \text{para } \nu > 2\]

No definida para \(\nu \leq 2\). Siempre mayor que 1, y se aproxima a 1 cuando \(\nu \to \infty\).

Asimetría

Siempre 0: la distribución es perfectamente simétrica alrededor de 0, para \(\nu > 3\).

Curtosis

\[g_2 = \frac{6}{\nu - 4}, \quad \text{para } \nu > 4\]

Siempre positiva (leptocúrtica). Se aproxima a 0 cuando \(\nu \to \infty\).

Moda y mediana

Ambas iguales a 0 por simetría.

Función cuantil

No existe forma cerrada; los valores se leen de tablas t o se calculan con software. Valores clave de \(t_{0{,}975,\, \nu}\) (IC bilateral al 95%):

\(\nu\)	\(t_{0{,}975}\)
5	2,571
10	2,228
20	2,086
30	2,042
\(\infty\)	1,960

A medida que \(\nu\) crece, el valor crítico se aproxima a 1,960, el cuantil de la normal estándar.

¿Por qué usar t en lugar de z?

Al contrastar una hipótesis sobre la media poblacional \(\mu\), el estadístico natural es:

\[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\]

Esto sigue exactamente \(N(0,1)\). El problema es que \(\sigma\) casi nunca se conoce. Sustituirla por la desviación típica muestral \(S\) da:

\[T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n-1)\]

Este estadístico sigue una distribución t porque \(S\) introduce variabilidad adicional. La distribución t tiene colas más pesadas que la normal para dar cuenta de la incertidumbre extra que introduce estimar \(\sigma\).

⚠️ ¿Cuándo se puede usar z en lugar de t?

En la práctica, muchos libros de texto dicen “usa z cuando \(n \geq 30\) y \(\sigma\) es conocida, usa t en caso contrario”. La regla real es más simple: usa siempre t cuando \(\sigma\) sea desconocida, independientemente del tamaño muestral. Para \(n\) grande, t y z dan resultados casi idénticos, así que usar t nunca es incorrecto.

El único caso en que z es estrictamente correcto y t es una aproximación es cuando \(\sigma\) es verdaderamente conocida, lo cual es raro fuera de experimentos controlados.

Aplicaciones

Contraste t de una muestra e intervalo de confianza

Para contrastar \(H_0: \mu = \mu_0\) o construir un IC para \(\mu\):

\[T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)\]

Intervalo de confianza al \((1-\alpha)\) para \(\mu\):

\[\bar{X} \pm t_{\alpha/2,\, n-1} \cdot \frac{S}{\sqrt{n}}\]

Contraste t de una muestra: peso de producto

Una empresa alimentaria afirma que sus envases pesan 500 g de media. Un auditor de calidad pesa 12 envases y obtiene \(\bar{X} = 494\) g y \(S = 8\) g.

Contrasta \(H_0: \mu = 500\) frente a \(H_1: \mu \neq 500\) con \(\alpha = 0{,}05\).

\[T = \frac{494 - 500}{8/\sqrt{12}} = \frac{-6}{2{,}309} \approx -2{,}60\]

Valor crítico: \(t_{0{,}025,\, 11} \approx 2{,}201\).

Como \(|{-2{,}60}| > 2{,}201\), rechazamos \(H_0\). Hay evidencia significativa de que los envases pesan menos de lo declarado.

IC al 95%: \(494 \pm 2{,}201 \times 2{,}309 = 494 \pm 5{,}08 = (488{,}9;\, 499{,}1)\) g.

Contraste t de dos muestras

Para comparar las medias de dos grupos independientes con varianzas iguales:

\[T = \frac{\bar{X}_1 - \bar{X}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t(n_1 + n_2 - 2)\]

donde \(S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}\) es la varianza combinada.

Para varianzas desiguales, el test de Welch usa unos grados de libertad modificados (aproximación de Satterthwaite).

⚠️ Comprueba siempre el supuesto de igualdad de varianzas

El contraste t de dos muestras combinado asume varianzas iguales. Si las varianzas difieren sustancialmente, usa el test de Welch: no asume igualdad de varianzas y se recomienda como opción por defecto. En R, t.test() usa Welch por defecto; añade var.equal = TRUE para la versión combinada.

Contraste t de datos pareados

Cuando las observaciones vienen en pares (antes/después, sujetos emparejados), calcula las diferencias \(D_i = X_{i1} - X_{i2}\) y aplica el contraste t de una muestra a \(D_i\).

Contraste t de datos pareados: antes y después de una formación

Ocho empleados realizan un test de velocidad de escritura antes y después de un programa de formación. Las diferencias (después menos antes, en palabras por minuto) son:

\[d = (5, 8, -2, 12, 6, 3, 9, 4)\]

\(\bar{d} = 5{,}625\), \(S_d \approx 4{,}24\), \(n = 8\).

\[T = \frac{5{,}625}{4{,}24/\sqrt{8}} = \frac{5{,}625}{1{,}499} \approx 3{,}75\]

Valor crítico: \(t_{0{,}025,\, 7} \approx 2{,}365\).

Como \(3{,}75 > 2{,}365\), rechazamos \(H_0\): la formación mejoró significativamente la velocidad de escritura (\(p \approx 0{,}007\)).

Figure 1: Contraste t bilateral con 11 grados de libertad a α=0,05: regiones de rechazo en rojo

💡 Relación con otras distribuciones

Normal: \(t(\infty) = N(0,1)\). Cuando \(\nu \to \infty\), la t converge a la normal estándar.
Cauchy: \(t(1) = \text{Cauchy}(0,1)\). Sin media, sin varianza.
Chi-cuadrado: \(T^2 \sim F(1, \nu)\), donde \(F\) es la distribución F. Elevar al cuadrado un estadístico t da un estadístico F.
Distribución F: \(t(\nu)^2 = F(1, \nu)\).
Beta: \(T^2/(\nu + T^2) \sim \text{Beta}(1/2,\, \nu/2)\).