Covarianza en estadística
La covarianza mide si dos variables tienden a moverse en la misma dirección o en direcciones opuestas. Es la base de la correlación, la regresión y la teoría de carteras en finanzas.
Definición
Cuando se miden dos variables sobre los mismos individuos, la covarianza indica si tienden a aumentar juntas (covarianza positiva), a moverse en direcciones opuestas (covarianza negativa) o a no tener un patrón lineal consistente (covarianza cero).
Al igual que con la varianza, existen dos versiones según se disponga de la población completa o de una muestra.
Covarianza poblacional:
\[ \sigma_{XY} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]
Covarianza muestral (usada en la práctica cuando se trabaja con una muestra):
\[ s_{XY} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]
La corrección por \(n-1\) en la fórmula muestral cumple el mismo propósito que en la varianza muestral: corrige el hecho de que las medias muestrales son a su vez estimaciones, dejando solo \(n-1\) piezas de información independientes.
Interpretación
El signo de la covarianza indica la dirección de la relación:
- Covarianza positiva (\(s_{XY} > 0\)): cuando \(X\) está por encima de su media, \(Y\) tiende a estar también por encima de la suya. Las variables se mueven juntas.
- Covarianza negativa (\(s_{XY} < 0\)): cuando \(X\) está por encima de su media, \(Y\) tiende a estar por debajo de la suya. Las variables se mueven en direcciones opuestas.
- Covarianza cero (\(s_{XY} \approx 0\)): no hay relación lineal consistente entre \(X\) e \(Y\).
La magnitud de la covarianza es más difícil de interpretar porque depende de las unidades de ambas variables. Esta es la principal limitación de la covarianza frente a la correlación.
Figure 1: El signo de la covarianza indica la dirección de la relación lineal entre dos variables
⚠️ Covarianza cero no implica independencia
La covarianza mide únicamente la asociación lineal. Dos variables pueden tener covarianza cero y estar fuertemente relacionadas de forma no lineal. Por ejemplo, si (Y = X^2) y (X) es simétrica alrededor de cero, la covarianza entre (X) e (Y) es cero, pero (Y) está completamente determinada por (X). Comprueba siempre un diagrama de dispersión junto al valor de la covarianza.
Ejemplo paso a paso
Un entrenador registra las horas de entrenamiento semanales y los tiempos de carrera (en minutos) de 5 atletas:
| Atleta | Horas entrenadas (\(X\)) | Tiempo de carrera (\(Y\)) |
|---|---|---|
| 1 | 5 | 52 |
| 2 | 8 | 46 |
| 3 | 10 | 43 |
| 4 | 12 | 40 |
| 5 | 15 | 35 |
Paso 1: calcular las medias.
\[\bar{x} = \frac{5+8+10+12+15}{5} = 10, \quad \bar{y} = \frac{52+46+43+40+35}{5} = 43{,}2\]
Paso 2: calcular las desviaciones y sus productos.
| \(x_i\) | \(y_i\) | \(x_i - \bar{x}\) | \(y_i - \bar{y}\) | \((x_i-\bar{x})(y_i-\bar{y})\) |
|---|---|---|---|---|
| 5 | 52 | \(-5\) | \(8{,}8\) | \(-44{,}0\) |
| 8 | 46 | \(-2\) | \(2{,}8\) | \(-5{,}6\) |
| 10 | 43 | \(0\) | \(-0{,}2\) | \(0{,}0\) |
| 12 | 40 | \(2\) | \(-3{,}2\) | \(-6{,}4\) |
| 15 | 35 | \(5\) | \(-8{,}2\) | \(-41{,}0\) |
| Suma | \(-97{,}0\) |
Paso 3: aplicar la fórmula de la covarianza muestral.
\[s_{XY} = \frac{-97{,}0}{5-1} = -24{,}25\]
La covarianza es negativa: los atletas que entrenan más horas tienden a tener tiempos menores (más rápidos). Más entrenamiento se asocia con mejor rendimiento.
La covarianza de (-24{,}25) indica la dirección (negativa: más entrenamiento, tiempos más rápidos) pero no la fuerza de la relación en ningún sentido estandarizado. Si hubiésemos medido el tiempo de carrera en segundos en lugar de minutos, la covarianza sería (-24{,}25 \times 60 = -1455), aunque la relación sea idéntica. Por eso se prefiere la correlación cuando se quiere comparar la fuerza de las asociaciones.
El problema de las unidades
La covarianza se expresa en el producto de las unidades de ambas variables. Si \(X\) está en horas e \(Y\) en minutos, la covarianza está en horas·minutos. Esto la hace:
- Difícil de interpretar en términos absolutos.
- Imposible de comparar entre distintos pares de variables.
- Sensible al reescalado: multiplicar \(X\) por una constante \(a\) e \(Y\) por una constante \(b\) multiplica la covarianza por \(a \times b\).
⚠️ Nunca compares covarianzas de distintos conjuntos de datos directamente
Una covarianza de 500 entre talla y peso en un estudio y de 50 en otro no significa que la relación sea diez veces más fuerte en el primero. La diferencia puede deberse por completo a distintas unidades, distintas escalas o distinta variabilidad muestral. Usa la correlación para hacer comparaciones.
Relación con la correlación
La correlación es la covarianza dividida entre el producto de las desviaciones típicas de ambas variables:
\[r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}\]
Esta estandarización elimina las unidades y acota el resultado a \([-1, 1]\), haciéndolo directamente interpretable y comparable entre conjuntos de datos. En el ejemplo de los atletas:
\[s_X = \sqrt{\frac{(-5)^2+(-2)^2+0^2+2^2+5^2}{4}} = \sqrt{13{,}5} \approx 3{,}67 \text{ horas}\]
\[s_Y = \sqrt{\frac{8{,}8^2+2{,}8^2+0{,}2^2+3{,}2^2+8{,}2^2}{4}} = \sqrt{43{,}7} \approx 6{,}61 \text{ min}\]
\[r_{XY} = \frac{-24{,}25}{3{,}67 \times 6{,}61} \approx -1{,}00\]
Una correlación de \(-1\) indica una relación lineal negativa perfecta: en este pequeño conjunto de datos, las horas de entrenamiento y el tiempo de carrera siguen un patrón casi perfectamente lineal.
💡 Cuándo usar la covarianza frente a la correlación