Essa viene condotta principalmente per scovare relazioni nascoste tra le variabili e poi poter migliorare le performance di produzione, incrementare le vendite o limitare potenziali fattori che influenzano la nostra salute.
Uno degli strumenti più utili per questo scopo è la matrice di correlazione, semplice da implementare ma assai efficace.
Si presenta come una normale tabella contenente numeri, da -1 a +1, che sono i coefficienti di correlazione tra le variabili del dataset.
- +1: indica una correlazione perfetta positiva (quando una variabile aumenta, anche l’altra aumenta).
- -1: indica una correlazione perfetta negativa (quando una variabile aumenta, l’altra diminuisce).
- 0: indica assenza di correlazione.
Ad esempio, se analizziamo il rendimento degli studenti, possiamo scoprire che il numero di ore di studio è positivamente correlato con il punteggio all’esame, mentre il consumo di caffè potrebbe essere negativamente correlato con le ore di sonno.
A cosa serve la matrice di correlazione?
- Identificare pattern e tendenze
- Migliorare il processo decisionale
- Riduzione della complessità
- Supporto al machine learning
- Altro
Un caso pratico: analisi dei fattori che influenzano lo stato di salute.
Immaginiamo di avere un dataset con le seguenti variabili:
- Età
- Altezza
- Peso
- Pressione sanguigna
- Ore di attività fisica settimanali
- Ore di sonno giornaliere
- Numero di caffè consumati al giorno
La matrice di correlazione, ad esempio, ci fornirebbe le risposte alle seguenti domande:
✅ L’età è correlata alla pressione sanguigna?
✅ Maggiori ore di attività fisica sono associate a un peso corporeo inferiore?
✅ Il numero di caffè al giorno influenza negativamente il sonno?
Avvertenze per l'uso
- Correlazione ≠ Causalità
- Scova solo relazioni lineari: la correlazione tra età e forza fisica potrebbe essere debole, perché la forza aumenta nell’adolescenza, raggiunge un picco e poi diminuisce con l’età, formando una curva.