Cuantiles en estadística
Los cuantiles dividen un conjunto de datos ordenado en partes iguales. No solo indican dónde está el centro, sino cómo se distribuyen los datos a lo largo de todo el rango. Los cuartiles, deciles y percentiles son todos cuantiles, simplemente con distinto número de divisiones.
Definición
Un cuantil de orden \(p\) (donde \(0 < p < 1\)) es el valor \(q_p\) que divide los datos ordenados de forma que al menos una fracción \(p\) de las observaciones caen por debajo o en ese valor, y al menos una fracción \(1-p\) caen por encima.
En términos simples: el cuantil \(q_p\) es el valor por debajo del cual se encuentra el \(p \times 100\%\) de los datos.
Las tres familias de cuantiles más habituales son:
- Cuartiles: dividen los datos en 4 partes iguales (3 puntos de corte).
- Deciles: dividen los datos en 10 partes iguales (9 puntos de corte).
- Percentiles: dividen los datos en 100 partes iguales (99 puntos de corte).
No son conceptos distintos, sino la misma idea aplicada con diferente resolución. El percentil 25 es lo mismo que el primer cuartil \(Q_1\). El percentil 50 es lo mismo que el segundo cuartil \(Q_2\) y la mediana.
Figure 1: Los cuartiles dividen la distribución en cuatro partes iguales
Cuartiles
Los cuartiles son los tres valores \(Q_1\), \(Q_2\) y \(Q_3\) que dividen los datos ordenados en cuatro partes de igual tamaño.
- \(Q_1\) (primer cuartil, percentil 25): el 25% de los datos cae por debajo de este valor.
- \(Q_2\) (segundo cuartil, percentil 50): coincide con la mediana.
- \(Q_3\) (tercer cuartil, percentil 75): el 75% de los datos cae por debajo de este valor.
La diferencia \(Q_3 - Q_1\) se llama rango intercuartílico (IQR). Mide la dispersión del 50% central de los datos y es una de las medidas de dispersión más robustas.
Dado el conjunto de datos: (3, 7, 8, 5, 12, 14, 21, 13, 18)
Ordenados: \((3, 5, 7, 8, 12, 13, 14, 18, 21)\)
- \(Q_2\) es la mediana del conjunto completo: \(Q_2 = 12\)
- \(Q_1\) es la mediana de la mitad inferior \((3, 5, 7, 8)\): \(Q_1 = \frac{5+7}{2} = 6\)
- \(Q_3\) es la mediana de la mitad superior \((13, 14, 18, 21)\): \(Q_3 = \frac{14+18}{2} = 16\)
- \(IQR = Q_3 - Q_1 = 16 - 6 = 10\)
Figure 2: Un boxplot visualiza los cuartiles: la caja abarca de Q1 a Q3, la línea interior es Q2
💡 Cuartiles y el boxplot
Deciles
Los deciles son los 9 valores \(d_1, d_2, \dots, d_9\) que dividen los datos ordenados en 10 partes iguales. Cada decil corresponde a un múltiplo del 10% de la distribución.
El quinto decil coincide con el segundo cuartil y la mediana: \(d_5 = Q_2 = Me\).
Una clase de 30 estudiantes hace un examen. Las notas ordenadas van de 41 a 98. Los deciles dividen este rango en 10 grupos de igual frecuencia (3 estudiantes cada uno):
- \(d_1 = 48\): el 10% de los estudiantes sacó menos de 48.
- \(d_3 = 61\): el 30% sacó menos de 61.
- \(d_5 = 72\): la mitad de la clase sacó menos de 72 (es también la mediana).
- \(d_9 = 94\): el 90% sacó menos de 94, por lo que solo 3 estudiantes están en el decil superior.
Un estudiante que sacó 72 está exactamente en la mediana. Uno que sacó 94 está en el decil más alto.
Percentiles
Los percentiles dividen los datos en 100 partes iguales. El percentil \(k\), \(p_k\), es el valor por debajo del cual cae el \(k\%\) de las observaciones.
Son la familia más granular de las tres y se usan ampliamente para comparar la posición de un individuo dentro de una población de referencia.
Cuando un médico mide la talla y el peso de un niño, el resultado se expresa como un percentil respecto a una población de referencia de niños de la misma edad y sexo:
- Un niño en el percentil 50 de talla es más alto que exactamente la mitad de los niños de su edad.
- Un niño en el percentil 97 es más alto que el 97% de sus pares, lo que puede requerir seguimiento.
- Un niño por debajo del percentil 3 es más bajo que el 97% de sus pares.
Los umbrales del percentil 3 y el percentil 97 son referencias clínicas estándar precisamente porque son fáciles de interpretar: representan el 3% extremo de cada cola de la distribución.
Figure 3: Bandas de percentiles: cada banda contiene el 1% de los datos
Cómo calcular los cuantiles
La fórmula general para la posición del cuantil \(k\)-ésimo en un conjunto de datos ordenado de tamaño \(n\), con \(m\) partes en total, es:
\[q_k = \frac{k(n+1)}{m}\]
Si el resultado es un entero \(i\), el cuantil es \(x_i\). Si cae entre dos posiciones \(i\) e \(i+1\), se interpola:
\[q_k = x_i + (pos - i)(x_{i+1} - x_i)\]
Conjunto de datos: (55, 60, 65, 70, 75, 80, 85, 90, 95, 100) ((n = 10), ya ordenado).
Posición de \(Q_1\) (\(k=1\), \(m=4\)): \[pos = \frac{1 \times (10+1)}{4} = 2{,}75\]
La posición cae entre el 2.º valor (60) y el 3.º valor (65). Interpolando: \[Q_1 = 60 + 0{,}75 \times (65 - 60) = 60 + 3{,}75 = 63{,}75\]
⚠️ No existe una única fórmula para los cuantiles
Distintos programas usan diferentes métodos de interpolación. Solo R tiene 9 algoritmos distintos para calcular cuantiles (del tipo 1 al 9 en la función quantile()). Por eso los valores que calculas a mano pueden no coincidir exactamente con los de R o Excel. Las diferencias son pequeñas para muestras grandes, pero pueden ser apreciables con pocos datos.
Referencia rápida
| Nombre | Divisiones | Puntos de corte | Relaciones clave |
|---|---|---|---|
| Cuartiles | 4 | \(Q_1, Q_2, Q_3\) | \(Q_2 = d_5 = p_{50} = Me\) |
| Deciles | 10 | \(d_1, \dots, d_9\) | \(d_5 = Q_2 = Me\) |
| Percentiles | 100 | \(p_1, \dots, p_{99}\) | \(p_{25} = Q_1\), \(p_{50} = Me\), \(p_{75} = Q_3\) |