Modelo autorregresivo (AR)

Un modelo autorregresivo de orden \(p\), AR(\(p\)), expresa el valor actual de una serie de tiempo como combinación lineal de sus \(p\) valores más recientes más ruido blanco. Es el modelo más sencillo para capturar la dependencia temporal y el bloque de construcción de ARMA y ARIMA.

Definición

\[y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \varepsilon_t\]

donde \(\varepsilon_t \sim \text{RB}(0, \sigma^2)\) es ruido blanco (media cero, varianza constante, no correlacionado). Con el operador de retardo \(L\):

\[(1 - \phi_1 L - \phi_2 L^2 - \cdots - \phi_p L^p) y_t = \varepsilon_t\]

\[\Phi(L)\, y_t = \varepsilon_t\]

donde \(\Phi(L) = 1 - \phi_1 L - \cdots - \phi_p L^p\) es el polinomio AR.

Condición de estacionariedad

Un proceso AR(\(p\)) es estacionario si y solo si todas las raíces del polinomio característico \(\Phi(z) = 0\) se encuentran fuera del círculo unitario \(|z| > 1\).

Para AR(1): \(y_t = \phi_1 y_{t-1} + \varepsilon_t\) es estacionario sii \(|\phi_1| < 1\). Cuando \(\phi_1 = 1\), el proceso es un paseo aleatorio (no estacionario).

Para AR(2): \(y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + \varepsilon_t\) es estacionario cuando las raíces de \(1 - \phi_1 z - \phi_2 z^2 = 0\) tienen módulo mayor que 1. Esto requiere:

\[|\phi_2| < 1, \qquad \phi_1 + \phi_2 < 1, \qquad \phi_2 - \phi_1 < 1\]

Tres procesos AR(1) con phi=0,5, phi=0,95 y phi=1,0 que muestran comportamiento estacionario y no estacionario

Con \(\phi = 0{,}5\) (verde), la serie revierte rápidamente a cero. Con \(\phi = 0{,}95\) (naranja), la reversión es lenta y la serie tiene memoria larga. Con \(\phi = 1\) (rojo), el paseo aleatorio deriva sin límite.

ACF y PACF de los procesos AR

La ACF teórica de un AR(\(p\)) estacionario satisface las ecuaciones de Yule-Walker:

\[\rho_k = \phi_1 \rho_{k-1} + \phi_2 \rho_{k-2} + \cdots + \phi_p \rho_{k-p}, \quad k \geq 1\]

Esto da una ACF que se atenúa geométricamente (o con oscilaciones amortiguadas si las raíces son complejas). La PACF se corta bruscamente tras el retardo \(p\): \(\phi_{kk} = 0\) para \(k > p\).

Este corte en la PACF es el identificador clave de los modelos AR(\(p\)).

ACF y PACF de procesos AR(1) y AR(2) simulados que muestran los patrones característicos

Estimación

Mínimos Cuadrados Ordinarios (MCO)

Se escribe el AR(\(p\)) como una regresión: \(y_t = \phi_1 y_{t-1} + \cdots + \phi_p y_{t-p} + \varepsilon_t\). MCO minimiza \(\sum_{t=p+1}^T \varepsilon_t^2\) y proporciona estimaciones consistentes y asintóticamente eficientes cuando el proceso es estacionario.

Ecuaciones de Yule-Walker

Se expresa la ACF en función de los parámetros usando las ecuaciones de Yule-Walker en forma matricial:

\[\begin{pmatrix}\rho_1 \\ \rho_2 \\ \vdots \\ \rho_p\end{pmatrix} = \begin{pmatrix}1 & \rho_1 & \cdots & \rho_{p-1} \\ \rho_1 & 1 & \cdots & \rho_{p-2} \\ \vdots & & \ddots & \vdots \\ \rho_{p-1} & \rho_{p-2} & \cdots & 1\end{pmatrix} \begin{pmatrix}\phi_1 \\ \phi_2 \\ \vdots \\ \phi_p\end{pmatrix}\]

Al sustituir la ACF muestral \(\hat{\rho}_k\) se obtienen las estimaciones de Yule-Walker. Son menos eficientes que el MV pero garantizan estimaciones estacionarias (todas las raíces fuera del círculo unitario).

Estimación por Máxima Verosimilitud (MV)

Asume errores gaussianos y maximiza la verosimilitud conjunta. Más eficiente que MCO o Yule-Walker en muestras pequeñas. Es el método usado por arima() en R de forma predeterminada.

Ejemplo: temperatura diaria con AR(1)

Ajuste AR(1) a datos de temperatura diaria simulados con valores ajustados y predicción

La predicción del AR(1) (rojo) revierte hacia la media incondicional \(\mu = \phi_0/(1-\phi_1)\) a medida que aumenta el horizonte. Las predicciones multipaso de los procesos AR son cada vez más inciertas y convergen a la media a largo plazo cuando \(h \to \infty\).

Selección del orden

La PACF se corta en el orden verdadero \(p\), lo que proporciona una estimación inicial. La selección formal usa criterios de información:

\[\text{AIC} = -2\log\hat{L} + 2(p+1), \qquad \text{BIC} = -2\log\hat{L} + \log(T)(p+1)\]

El BIC penaliza la complejidad con más fuerza y tiende a seleccionar modelos más simples. Ambos deben compararse a lo largo de un rango de órdenes candidatos.

⚠️ Sobreajuste: elegir p demasiado grande

Incluir demasiados retardos ajusta bien los datos de entrenamiento pero produce predicciones inestables y ruidosas. Señales de sobreajuste:

  • Los coeficientes en retardos altos son cercanos a cero pero con errores estándar grandes.
  • El AIC mejora ligeramente pero el BIC aumenta (el BIC penaliza los parámetros extra con más fuerza).
  • Los intervalos de predicción se ensanchan rápidamente.

Una regla práctica: considera retardos hasta \(p_\text{max} = \min(10, T/5)\) y usa BIC para la selección en series cortas.

💡 Ajustar modelos AR en R

# Ajustar AR(1) por MV
arima(y, order = c(1, 0, 0))

# Selección automática del orden por AIC
ar(y, method = "mle")

# Comparación de AIC/BIC entre órdenes
library(forecast)
auto.arima(y, max.p = 5, max.q = 0, d = 0)  # solo AR

# Estimación por Yule-Walker
ar(y, method = "yule-walker")