Variables aleatorias bidimensionales
Cuando se miden dos variables aleatorias sobre el mismo individuo o experimento, se necesitan herramientas que describan su comportamiento conjunto, no solo cada una por separado. Las variables aleatorias bidimensionales proporcionan exactamente eso: un marco para estudiar cómo dos variables se relacionan, dependen o se influyen mutuamente.
Definición
Una variable aleatoria bidimensional es un par \((X, Y)\) de variables aleatorias definidas sobre el mismo espacio de probabilidad:
\[ (X, Y): \Omega \rightarrow \mathbb{R}^2 \]
A cada resultado \(\omega \in \Omega\) se le asigna un par de números reales \((X(\omega), Y(\omega))\). El comportamiento probabilístico completo del par queda descrito por su distribución conjunta.
Distribución conjunta
La distribución conjunta describe la probabilidad de que \((X, Y)\) tome valores específicos simultáneamente.
Para variables discretas, la función de masa de probabilidad conjunta es:
\[p_{X,Y}(x, y) = P(X = x,\ Y = y)\]
Para variables continuas, la función de densidad de probabilidad conjunta \(f_{X,Y}(x, y)\) satisface:
\[P((X,Y) \in A) = \iint_A f_{X,Y}(x, y)\, dx\, dy\]
En ambos casos, la distribución conjunta debe cumplir la no negatividad y la normalización (la probabilidad total suma o integra 1).
Figure 1: Distribución conjunta de dos variables continuas correlacionadas: cada punto es una observación, los contornos muestran regiones de igual densidad
Una encuesta registra el número de horas de ejercicio semanales (\(X\)) y la puntuación de salud autoinformada (\(Y\), de 1 a 3) para una muestra de individuos. La PMF conjunta es:
| \(Y=1\) (mala) | \(Y=2\) (regular) | \(Y=3\) (buena) | \(p_X(x)\) | |
|---|---|---|---|---|
| \(X=0\) (sedentario) | 0,15 | 0,10 | 0,05 | 0,30 |
| \(X=1\) (moderado) | 0,05 | 0,20 | 0,15 | 0,40 |
| \(X=2\) (activo) | 0,02 | 0,08 | 0,20 | 0,30 |
| \(p_Y(y)\) | 0,22 | 0,38 | 0,40 | 1,00 |
Las sumas por filas dan la distribución marginal de \(X\); las sumas por columnas dan la distribución marginal de \(Y\).
Figure 2: PMF conjunta como mapa de calor: las celdas más oscuras tienen mayor probabilidad conjunta
Distribuciones marginales
La distribución marginal de \(X\) se obtiene sumando (o integrando) la distribución conjunta sobre todos los valores de \(Y\), y viceversa.
Para variables discretas:
\[p_X(x) = \sum_{y} p_{X,Y}(x, y) \qquad p_Y(y) = \sum_{x} p_{X,Y}(x, y)\]
Para variables continuas:
\[f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\, dy \qquad f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\, dx\]
Usando la tabla anterior, la distribución marginal de \(X\) es:
- \(P(X=0) = 0{,}15 + 0{,}10 + 0{,}05 = 0{,}30\)
- \(P(X=1) = 0{,}05 + 0{,}20 + 0{,}15 = 0{,}40\)
- \(P(X=2) = 0{,}02 + 0{,}08 + 0{,}20 = 0{,}30\)
Son los totales de las filas. La marginal de \(Y\) se calcula de la misma forma a partir de los totales de las columnas.
Distribuciones condicionadas
La distribución condicionada de \(X\) dado \(Y = y\) describe cómo se comporta \(X\) cuando fijamos el valor de \(Y\). Para variables discretas:
\[P(X = x \mid Y = y) = \frac{P(X = x,\ Y = y)}{P(Y = y)}\]
Para variables continuas:
\[f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}\]
Usando la tabla anterior, ¿cuál es la distribución del nivel de ejercicio dado que una persona tiene mala salud ((Y = 1))?
\[P(X=0 \mid Y=1) = \frac{0{,}15}{0{,}22} \approx 0{,}682\] \[P(X=1 \mid Y=1) = \frac{0{,}05}{0{,}22} \approx 0{,}227\] \[P(X=2 \mid Y=1) = \frac{0{,}02}{0{,}22} \approx 0{,}091\]
Entre las personas con mala salud, el 68% son sedentarias y solo el 9% son activas. Esta es la distribución condicionada de \(X\) dado \(Y = 1\).
Independencia
\(X\) e \(Y\) son independientes si y solo si su distribución conjunta se factoriza como el producto de las distribuciones marginales:
\[p_{X,Y}(x, y) = p_X(x) \cdot p_Y(y) \quad \text{(discretas)}\]
\[f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) \quad \text{(continuas)}\]
En la práctica, para comprobar la independencia en una tabla discreta: verifica que cada celda es igual al producto de sus marginales de fila y columna. Una sola celda que lo viole es suficiente para concluir dependencia.
Para la tabla ejercicio/salud, comprobando la celda \((X=0, Y=3)\):
\[p_X(0) \cdot p_Y(3) = 0{,}30 \times 0{,}40 = 0{,}12 \neq 0{,}05 = p_{X,Y}(0,3)\]
Las variables no son independientes: el nivel de ejercicio y la puntuación de salud están asociados.
⚠️ Correlación cero no implica independencia
Dos variables pueden tener covarianza cero (y por tanto correlación cero) y seguir siendo dependientes. La covarianza solo captura la dependencia lineal. Si \(Y = X^2\) y \(X\) es simétrica alrededor de cero, entonces \(\text{Cov}(X, Y) = 0\) pero \(Y\) está completamente determinada por \(X\). La independencia implica correlación cero, pero correlación cero no implica independencia.
💡 Cómo verificar la independencia en la práctica
Para una tabla discreta conjunta: comprueba que cada probabilidad de celda es igual a (marginal de fila) × (marginal de columna). Si una sola celda falla, las variables son dependientes. Para distribuciones conjuntas continuas: comprueba si \(f_{X,Y}(x,y)\) puede escribirse como el producto de una función solo de \(x\) y una función solo de \(y\).