¿Las personas que duermen más horas tienen mejores notas? ¿A mayor temperatura, se venden más helados? Para medir si dos variables están relacionadas y en qué medida, existe la correlación.
¿Qué es la correlación?
La correlación mide la relación lineal entre dos variables numéricas. Responde: cuando una variable aumenta, ¿la otra tiende a aumentar, disminuir, o no pasa nada?
Se expresa con el coeficiente de correlación de Pearson (r), que va de -1 a +1.
Cómo interpretar el coeficiente r
| Valor de r | Interpretación |
|---|---|
| 1.0 | Correlación positiva perfecta |
| 0.7 a 0.9 | Correlación positiva fuerte |
| 0.4 a 0.6 | Correlación positiva moderada |
| 0.1 a 0.3 | Correlación positiva débil |
| 0 | Sin correlación |
| -0.1 a -0.3 | Correlación negativa débil |
| -0.7 a -0.9 | Correlación negativa fuerte |
| -1.0 | Correlación negativa perfecta |
Correlación positiva
Cuando una variable sube, la otra también tiende a subir.
Ejemplos:
- Horas de estudio y calificación en el examen (r ≈ 0.75)
- Temperatura y ventas de helados (r ≈ 0.85)
- Años de experiencia y salario (r ≈ 0.60)
Correlación negativa
Cuando una variable sube, la otra tiende a bajar.
Ejemplos:
- Horas de TV y rendimiento académico (r ≈ -0.50)
- Temperatura y ventas de ropa de invierno (r ≈ -0.80)
- Precio de un producto y cantidad demandada (r ≈ -0.70)
Correlación en Python
import pandas as pd
df = pd.DataFrame({
'horas_estudio': [1, 2, 3, 4, 5, 6, 7],
'nota': [40, 50, 55, 65, 70, 80, 90]
})
correlacion = df['horas_estudio'].corr(df['nota'])
print(f"Correlación: {correlacion:.2f}") # 0.99
Para ver todas las correlaciones de un DataFrame:
print(df.corr())
Correlación NO es causalidad
Este es el error más importante en análisis de datos. El hecho de que dos variables estén correlacionadas no significa que una cause la otra.
Ejemplo clásico: el número de piratas en el mundo y la temperatura global tienen correlación negativa perfecta (a medida que hubo menos piratas, la temperatura subió). Obviamente, los piratas no regulan el clima — es solo coincidencia.
Ejemplo más sutil: los países con más televisores por hogar tienen mayor esperanza de vida. ¿Los televisores hacen vivir más? No — ambas variables están relacionadas con el nivel de desarrollo económico, que es la causa real.
Antes de afirmar que A causa B, necesitas un diseño experimental o un análisis causal más riguroso.
Limitaciones de la correlación de Pearson
- Solo mide relaciones lineales. Dos variables pueden estar fuertemente relacionadas de forma no lineal y tener r ≈ 0.
- Es sensible a outliers — un valor extremo puede distorsionar el coeficiente.
- No funciona bien con datos categóricos — para eso existen otras medidas.
Errores frecuentes
Concluir causalidad desde correlación: siempre pregúntate si puede haber una tercera variable que explique la relación.
Ignorar el tamaño de la muestra: una correlación de 0.9 en 5 datos no es confiable. Se necesitan suficientes observaciones para que la correlación sea significativa.
Aprende haciendo, no solo leyendo
Leer es el primer paso. El verdadero aprendizaje ocurre cuando practicas con ejercicios reales de SQL y recibes corrección inmediata de IA.
Comenzar gratis →