Coeficiente de correlación de Pearson
El coeficiente de correlación de Pearson mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. Es uno de los estadísticos más utilizados en investigación y, a la vez, uno de los más mal interpretados.
Definición
El coeficiente de correlación de Pearson \(r\) es una medida estandarizada de la asociación lineal entre dos variables \(X\) e \(Y\). Siempre está entre \(-1\) y \(1\):
- \(r = 1\): relación lineal positiva perfecta.
- \(r = -1\): relación lineal negativa perfecta.
- \(r = 0\): sin relación lineal.
La fórmula expresa \(r\) como el cociente entre la covarianza y el producto de las desviaciones típicas:
\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}} \]
Esto es equivalente a:
\[r = \frac{s_{XY}}{s_X \cdot s_Y}\]
donde \(s_{XY}\) es la covarianza muestral, y \(s_X\), \(s_Y\) son las desviaciones típicas muestrales. Dividir por las desviaciones típicas elimina las unidades, haciendo que \(r\) sea adimensional y directamente comparable entre conjuntos de datos.
Interpretación del valor de r
El signo indica la dirección; el valor absoluto indica la fuerza:
| Valor de \(\|r\|\) | Interpretación |
|---|---|
| \(0{,}9 - 1{,}0\) | Muy fuerte |
| \(0{,}7 - 0{,}9\) | Fuerte |
| \(0{,}5 - 0{,}7\) | Moderada |
| \(0{,}3 - 0{,}5\) | Débil |
| \(0{,}0 - 0{,}3\) | Muy débil o despreciable |
Estos umbrales son orientativos, no reglas fijas. Lo que se considera una correlación “fuerte” depende mucho del campo: en física, \(r = 0{,}7\) puede ser decepcionante; en psicología o ciencias sociales, puede ser un resultado notable.
Figure 1: De izquierda a derecha: negativa fuerte, negativa débil, sin correlación, positiva débil y positiva fuerte
Figure 2: Dirección de la relación lineal: positiva, negativa y sin correlación
Ejemplo paso a paso
Un profesor registra las horas de estudio y las notas del examen de cinco estudiantes:
| Estudiante | Horas (\(X\)) | Nota (\(Y\)) |
|---|---|---|
| 1 | 2 | 50 |
| 2 | 3 | 60 |
| 3 | 5 | 80 |
| 4 | 7 | 85 |
| 5 | 9 | 95 |
Paso 1: calcular las medias.
\[\bar{x} = \frac{2+3+5+7+9}{5} = 5{,}2, \quad \bar{y} = \frac{50+60+80+85+95}{5} = 74\]
Paso 2: calcular las desviaciones y sus productos.
| \(x_i\) | \(y_i\) | \(x_i-\bar{x}\) | \(y_i-\bar{y}\) | \((x_i-\bar{x})(y_i-\bar{y})\) | \((x_i-\bar{x})^2\) | \((y_i-\bar{y})^2\) |
|---|---|---|---|---|---|---|
| 2 | 50 | \(-3{,}2\) | \(-24\) | \(76{,}8\) | \(10{,}24\) | \(576\) |
| 3 | 60 | \(-2{,}2\) | \(-14\) | \(30{,}8\) | \(4{,}84\) | \(196\) |
| 5 | 80 | \(-0{,}2\) | \(6\) | \(-1{,}2\) | \(0{,}04\) | \(36\) |
| 7 | 85 | \(1{,}8\) | \(11\) | \(19{,}8\) | \(3{,}24\) | \(121\) |
| 9 | 95 | \(3{,}8\) | \(21\) | \(79{,}8\) | \(14{,}44\) | \(441\) |
| Suma | \(206{,}0\) | \(32{,}80\) | \(1370\) |
Paso 3: aplicar la fórmula.
\[r = \frac{206{,}0}{\sqrt{32{,}80 \times 1370}} = \frac{206{,}0}{\sqrt{44936}} = \frac{206{,}0}{212{,}0} \approx 0{,}97\]
Una correlación de \(0{,}97\) indica una relación lineal positiva muy fuerte: los estudiantes que estudian más horas obtienen sistemáticamente mejores notas.
El coeficiente de determinación \(r^2\)
Elevar al cuadrado el coeficiente de correlación da \(r^2\), el coeficiente de determinación. Representa la proporción de varianza de \(Y\) que queda explicada por \(X\):
\[r^2 = 0{,}97^2 \approx 0{,}94\]
En este ejemplo, el 94% de la variabilidad en las notas del examen puede explicarse por las horas de estudio. El 6% restante se debe a otros factores no recogidos en el modelo.
💡 r vs r²: cuál reportar
Limitaciones
Correlación no implica causalidad
⚠️ La interpretación errónea más frecuente en estadística
Una correlación alta entre dos variables no significa que una cause la otra. Las ventas de helados y las tasas de ahogamiento están correlacionadas positivamente, pero los helados no causan ahogamientos: ambas están impulsadas por el calor. Las apariciones de Nicolas Cage en películas correlacionan con los ahogamientos en piscinas. El consumo per cápita de queso correlaciona con las muertes por enredarse en las sábanas. Estas se llaman correlaciones espurias, y son sorprendentemente fáciles de encontrar en conjuntos de datos grandes. Piensa siempre en el mecanismo antes de inferir causalidad a partir de una correlación.
Solo detecta relaciones lineales
La \(r\) de Pearson mide únicamente la asociación lineal. Una relación no lineal fuerte puede producir \(r \approx 0\).
Figure 3: Una relación cuadrática perfecta da r ≈ 0: la r de Pearson ignora por completo los patrones no lineales
Para relaciones no lineales, considera la correlación de rangos de Spearman u otras medidas no paramétricas.
Sensibilidad a los outliers
Una única observación extrema puede cambiar drásticamente el valor de \(r\). Inspecciona siempre el diagrama de dispersión antes de confiar en el coeficiente de correlación.
⚠️ Representa siempre los datos antes de calcular r
Dos conjuntos de datos pueden tener coeficientes de correlación casi idénticos pero patrones de dispersión completamente distintos. Esto se conoce como el cuarteto de Anscombe: cuatro conjuntos con (r \approx 0{,}82) que no se parecen en nada al representarlos. Calcular (r) sin mirar los datos es uno de los errores analíticos más frecuentes.