Coeficiente de asimetría en estadística
La asimetría mide la falta de simetría de una distribución. Saber si los datos son asimétricos, y en qué dirección, afecta a qué estadísticos resumen tienen sentido, qué tests son válidos y cómo interpretar los resultados.
¿Qué es la asimetría?
La mayoría de los conjuntos de datos reales no son perfectamente simétricos. Las distribuciones de ingresos tienen una cola derecha larga (pocas personas ganan muchísimo más que el resto). Las notas de un examen difícil se acumulan cerca de los valores bajos. La asimetría cuantifica esta falta de simetría.
La fórmula más habitual, usada por la mayoría del software estadístico, es el coeficiente ajustado de Fisher-Pearson:
\[ g = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} \left(\frac{x_i - \bar{x}}{s}\right)^3 \]
donde \(n\) es el tamaño muestral, \(\bar{x}\) es la media y \(s\) es la desviación típica muestral.
La potencia cúbica es la que da a la asimetría su sensibilidad direccional: las desviaciones positivas elevadas al cubo siguen siendo positivas, las negativas siguen siendo negativas, y las grandes desviaciones dominan por el efecto del exponente.
Tipos de asimetría
Asimetría positiva (distribución sesgada a la derecha)
Cuando \(g > 0\), la cola derecha es más larga. La mayoría de los valores se concentran a la izquierda, con unos pocos valores altos que estiran la distribución hacia la derecha. La media se desplaza hacia la cola:
\[\text{Moda} < \text{Mediana} < \text{Media}\]
Ejemplos reales: ingresos de los hogares, precios de la vivienda, número de seguidores en redes sociales, reclamaciones de seguros.
Asimetría negativa (distribución sesgada a la izquierda)
Cuando \(g < 0\), la cola izquierda es más larga. La mayoría de los valores se concentran a la derecha, con unos pocos valores bajos que arrastran la distribución hacia la izquierda:
\[\text{Media} < \text{Mediana} < \text{Moda}\]
Ejemplos reales: edad de jubilación, notas en un examen fácil, tiempo hasta el fallo de componentes de alta calidad.
Asimetría nula (distribución simétrica)
Cuando \(g \approx 0\), la distribución es simétrica y media, mediana y moda coinciden. La distribución normal tiene asimetría cero por definición.
Figure 1: La media y la mediana se desplazan entre sí según la dirección de la asimetría
⚠️ La asimetría aleja la media del centro
En una distribución asimétrica, la media deja de ser un buen resumen del valor “típico”. En una distribución de ingresos sesgada a la derecha, el salario medio es mayor que lo que gana la mayoría, porque unos pocos sueldos muy altos lo arrastran hacia arriba. La mediana es una mejor medida de tendencia central cuando hay asimetría.
Cómo interpretar el coeficiente
No existe un umbral universal, pero las pautas más habituales son:
| Valor de \(g\) | Interpretación |
|---|---|
| \(g < -1\) o \(g > 1\) | Muy asimétrica |
| \(-1 \leq g \leq -0{,}5\) o \(0{,}5 \leq g \leq 1\) | Moderadamente asimétrica |
| \(-0{,}5 < g < 0{,}5\) | Aproximadamente simétrica |
Son reglas orientativas, no umbrales exactos. Siempre hay que mirar el histograma junto al coeficiente.
💡 Representa siempre los datos antes de interpretar
Ejemplo paso a paso
Considera el siguiente conjunto de datos, que representa el número de reclamaciones de clientes recibidas por día durante 7 días:
\[x = (3, 4, 5, 6, 8, 12, 20)\]
Paso 1: calcular la media.
\[\bar{x} = \frac{3 + 4 + 5 + 6 + 8 + 12 + 20}{7} = 8{,}29\]
Paso 2: calcular la desviación típica muestral.
\[s = \sqrt{\frac{\sum_{i=1}^{7}(x_i - 8{,}29)^2}{6}} \approx 5{,}96\]
Paso 3: calcular las desviaciones tipificadas al cubo.
| \(x_i\) | \(x_i - \bar{x}\) | \(\left(\frac{x_i - \bar{x}}{s}\right)^3\) |
|---|---|---|
| 3 | \(-5{,}29\) | \(-0{,}703\) |
| 4 | \(-4{,}29\) | \(-0{,}375\) |
| 5 | \(-3{,}29\) | \(-0{,}169\) |
| 6 | \(-2{,}29\) | \(-0{,}057\) |
| 8 | \(-0{,}29\) | \(-0{,}000\) |
| 12 | \(3{,}71\) | \(0{,}271\) |
| 20 | \(11{,}71\) | \(8{,}537\) |
| Suma | \(7{,}504\) |
Paso 4: aplicar la fórmula.
\[g = \frac{7}{(7-1)(7-2)} \times 7{,}504 = \frac{7}{30} \times 7{,}504 \approx 1{,}75\]
La distribución tiene una asimetría positiva muy alta. Un día con 20 reclamaciones está arrastrando la media hacia arriba y creando una cola derecha larga. La mediana (6 reclamaciones) es un resumen más representativo que la media (8,29).
Dónde importa la asimetría
- Finanzas: las distribuciones de rentabilidades rara vez son simétricas. Asimetría positiva significa ganancias ocasionales grandes; asimetría negativa significa pérdidas ocasionales grandes. Muchos modelos de riesgo asumen normalidad, lo cual es incorrecto cuando la asimetría es significativa.
- Ingresos y riqueza: casi siempre sesgados a la derecha. Reportar la renta media de un país sobreestima lo que gana un ciudadano típico.
- Control de calidad: una distribución de defectos asimétrica sugiere que el proceso tiene un problema direccional, no solo ruido aleatorio.
- Elección de tests estadísticos: muchos tests paramétricos asumen normalidad aproximada. Una asimetría alta es una señal para considerar alternativas no paramétricas o transformaciones de los datos.
⚠️ No asumas normalidad sin comprobar la asimetría
Un error frecuente en estadística aplicada es aplicar un t-test o un ANOVA sin verificar que los datos son aproximadamente simétricos. Si la asimetría es alta (digamos, (|g| > 1)), los p-valores de estos tests pueden no ser fiables, especialmente con muestras pequeñas. Comprueba la asimetría (y la curtosis) antes de aplicar métodos que dependen de la normalidad.
💡 Qué hacer cuando los datos tienen mucha asimetría