INICIO

Regresión lineal simple

La regresión lineal simple modela la relación lineal entre una variable respuesta $y$ y un único predictor $x$ ajustando una recta a los datos. Es la base del análisis de regresión: toda regresión múltiple, regresión logística y modelo regularizado construye sobre estos conceptos.

El modelo

\[y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \qquad \varepsilon_i \sim N(0, \sigma^2)\]

$\beta_0$: intercepto. El valor esperado de $y$ cuando $x = 0$.
$\beta_1$: pendiente. El cambio esperado en $y$ por un incremento de una unidad en $x$.
$\varepsilon_i$: término de error. Captura todo lo que afecta a $y$ más allá de $x$: error de medición, variables omitidas, aleatoriedad inherente.

El modelo establece cuatro supuestos (LINE): Linealidad, Independencia de los errores, Normalidad de los errores, Equal varianza (homocedasticidad). Estos se comprueban en el artículo de diagnósticos.

Estimación por MCO

Los Mínimos Cuadrados Ordinarios (MCO) encuentran $\hat{\beta}_0$ y $\hat{\beta}_1$ que minimizan la suma de cuadrados de los residuos:

\[\text{SCR} = \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2\]

Derivando e igualando a cero se obtienen los estimadores en forma cerrada:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = r_{xy} \cdot \frac{S_y}{S_x}\]

\[\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\]

donde $r_{xy}$ es la correlación de Pearson, $S_y$ y $S_x$ son las desviaciones típicas muestrales. La recta de regresión siempre pasa por el punto de las medias $(\bar{x}, \bar{y})$.

La conexión con la correlación: $\hat{\beta}_1 = 0$ si y solo si $r_{xy} = 0$. Contrastar $H_0: \beta_1 = 0$ equivale a contrastar $H_0: \rho = 0$.

Ejemplo: gasto en publicidad y ventas

Una empresa registra el gasto semanal en publicidad televisiva (miles de €) y las ventas semanales (miles de unidades) durante 50 semanas.

Diagrama de dispersión de gasto en publicidad vs ventas con recta de regresión ajustada e intervalo de confianza

Cada €1.000 adicionales de publicidad televisiva se asocian con aproximadamente 1.79 miles de unidades vendidas extra. El intercepto (9.76) representa las ventas base con cero publicidad. $R^2 = $ 0.909 significa que el 90.9% de la variación en ventas queda explicada por el gasto en publicidad.

Bondad de ajuste: R²

El $R^2$ mide la proporción de varianza en $y$ explicada por el modelo:

\[R^2 = 1 - \frac{\text{SCR}}{\text{SCT}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\]

$R^2 \in [0,1]$. Un $R^2$ de 0,70 significa que el 70 % de la varianza en $y$ queda explicada por $x$; el 30 % restante es variación no explicada. En regresión lineal simple, $R^2 = r_{xy}^2$.

Dos paneles que muestran la SCT (variación total) y la SCR (variación no explicada) para ilustrar el R cuadrado

Inferencia sobre la pendiente

Bajo los supuestos del modelo, $\hat{\beta}_1$ sigue una distribución normal:

\[\hat{\beta}_1 \sim N\!\left(\beta_1,\; \frac{\sigma^2}{\sum(x_i-\bar{x})^2}\right)\]

Como $\sigma^2$ es desconocida, se estima con $\hat{\sigma}^2 = \text{SCR}/(n-2)$ y se usa la distribución $t$:

\[t = \frac{\hat{\beta}_1 - 0}{\widehat{\text{ET}}(\hat{\beta}_1)} \sim t(n-2) \quad \text{bajo } H_0: \beta_1 = 0\]

Un intervalo de confianza al $(1-\alpha)$ para $\beta_1$:

\[\hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot \widehat{\text{ET}}(\hat{\beta}_1)\]

Un contraste $t$ significativo ($p < 0{,}05$) significa que $x$ es un predictor estadísticamente significativo de $y$: la pendiente observada difícilmente surge por azar si $\beta_1 = 0$.

⚠️ La significación estadística no implica importancia práctica

Una muestra muy grande puede producir una pendiente estadísticamente significativa pero prácticamente despreciable. Un incremento de $\hat{\beta}_1 = 0{,}001$ unidades por cada €1.000 de publicidad puede ser significativo con $p < 0{,}001$ para $n = 10.000$ observaciones, pero es irrelevante comercialmente.

Comunica siempre el tamaño del efecto (la propia pendiente y su intervalo de confianza) junto al valor p. El intervalo de confianza transmite tanto la dirección como la magnitud plausible del efecto.

Predicción

Para una nueva observación en $x_\text{nuevo}$, el modelo produce dos tipos de intervalos:

Intervalo de confianza para la respuesta media: incertidumbre sobre el $y$ promedio en $x_\text{nuevo}$ en la población.

Intervalo de predicción para una nueva observación: más amplio, porque añade el error individual $\varepsilon$ a la incertidumbre sobre la media.

\[\hat{y}_\text{nuevo} \pm t_{\alpha/2, n-2} \cdot \hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_\text{nuevo}-\bar{x})^2}{\sum(x_i-\bar{x})^2}}\]

Ambos intervalos se ensanchan a medida que $x_\text{nuevo}$ se aleja de $\bar{x}$: la extrapolación es cada vez menos fiable.

💡 Regresión lineal simple en R

fit <- lm(sales ~ spend, data = df)
summary(fit)         # coeficientes, contrastes t, R²
confint(fit)         # IC al 95% para beta0 y beta1
predict(fit, newdata = data.frame(spend = 30),
        interval = "confidence")   # IC para la respuesta media
predict(fit, newdata = data.frame(spend = 30),
        interval = "prediction")   # IP para nueva observación