Calcular la mediana en estadística
La mediana es el valor que divide un conjunto de datos ordenado exactamente por la mitad. Es más robusta que la media cuando los datos contienen outliers o tienen una distribución muy asimétrica, lo que la convierte en la medida preferida en campos como el mercado inmobiliario, el análisis de ingresos o la medicina.
Definición
La mediana es el valor central de un conjunto de datos ordenado: la mitad de las observaciones están por debajo y la otra mitad por encima. Se representa como \(Me\).
La fórmula depende de si el tamaño muestral \(n\) es par o impar:
\[ Me(x) = \begin{cases} x_{(n+1)/2} &\text{si n es impar} \\\ \\\ \frac{x_{(n/2)} + x_{((n/2) + 1)}}{2} &\text{si n es par,} \end{cases} \]
siendo \(x\) un vector de valores ordenados de menor a mayor de tamaño \(n\).
El paso clave que muchos estudiantes pasan por alto: hay que ordenar los datos primero. La mediana es siempre una medida posicional: depende de dónde se sitúa un valor en la secuencia ordenada, no de su magnitud.
⚠️ Ordena antes de calcular
Un error muy común es tomar el elemento central de los datos sin ordenar. Por ejemplo, en (x = (83, 133, 104, 52, 57)) el elemento central es 104, pero la mediana de la secuencia ordenada ((52, 57, 83, 104, 133)) es 83. Ordena siempre primero.
Propiedades
- Transformación lineal: si \(Y = aX + b\), entonces \(Me(Y) = a \cdot Me(X) + b\).
- Robustez: la mediana no se ve afectada por los outliers. Añadir un valor extremo no cambia su posición en la secuencia ordenada.
- Tipos de variables: la mediana se aplica a variables cuantitativas y a variables cualitativas ordinales (donde existe un orden natural).
- Divide la distribución al 50%: por definición, la mediana es el percentil 50, también escrito \(Q_2\).
Ejemplos
Tamaño muestral impar
Considera los siguientes datos: \[x = (83, 133, 104, 52, 57, 53, 126, 115, 105, 100, 67).\]
El tamaño muestral es \(n = 11\) (impar), por lo que la mediana es el valor en la posición \((11+1)/2 = 6\) de la secuencia ordenada.
Figure 1: Datos ordenados: la mediana (recuadro rojo) deja 5 valores a cada lado
La mediana es \(Me(x) = 100\).
Tamaño muestral par
Eliminamos el valor 100 del conjunto anterior: \[x = (83, 133, 104, 52, 57, 53, 126, 115, 105, 67).\]
El tamaño muestral es ahora \(n = 10\) (par), por lo que la mediana es la media de los valores en las posiciones \(n/2 = 5\) y \(n/2 + 1 = 6\) de la secuencia ordenada.
Figure 2: Tamaño muestral par: la mediana es la media de los dos valores centrales (recuadro rojo)
La mediana es \(Me(x) = \frac{83 + 104}{2} = 93{,}5\).
Media vs. mediana: cuándo usar cada una
La media y la mediana miden ambas el centro de una distribución, pero se comportan de forma muy diferente cuando los datos son asimétricos o contienen outliers.
Figure 3: Distribución asimétrica: la media se desplaza hacia la cola, la mediana permanece cerca de la mayor parte de los datos
- Salarios: unos pocos directivos con sueldos muy altos arrastran la media muy por encima de lo que gana la mayoría. La mediana salarial es la descripción más honesta del sueldo de un trabajador típico.
- Precios de la vivienda: unas pocas propiedades de lujo distorsionan la media. Los informes inmobiliarios siempre citan el precio mediano.
- Tiempos de respuesta: un número reducido de peticiones muy lentas (timeouts, errores) inflan la media. La mediana da una imagen más fiel del rendimiento habitual.
⚠️ La mediana ignora la magnitud de los valores
La mediana solo tiene en cuenta el orden, no la distancia entre valores. En el conjunto ((1, 2, 3, 4, 100)) y en ((1, 2, 3, 4, 5)), la mediana es 3 en ambos casos. Si la magnitud real de los valores importa para el análisis, la media recoge esa información y la mediana no.
💡 Una regla práctica rápida