Sono lieto di condividere i risultati di un esperimento di classificazione di gesti utilizzando sensori IMU (accelerometro e giroscopio). L'obiettivo era distinguere tra due movimenti della mano: tracciare un cerchio o una croce nell'aria.
L'addestramento è iniziato con un dataset di segnali IMU a 6 dimensioni raccolti col mio smartphone durante l'esecuzione dei gesti.
Inizialmente ho utilizzato reti neurali ricorrenti (GRU) e convoluzionali (CNN), ma entrambe hanno mostrato un problema critico: predicevano sistematicamente una sola classe, il cerchio, raggiungendo appena il 49% di accuracy. Nonostante il bilanciamento del dataset e l'ottimizzazione degli iperparametri, le reti neurali profonde faticavano a convergere su questo tipo di dati temporali.
La vera svolta è arrivata quando ho deciso, un po' a malincuore, di abbandonare le reti neurali e cambiare approccio, passando a un sistema basato su feature ad hoc.
Ho estratto, con l'aiuto dell'IA, le caratteristiche significative da ogni sequenza temporale, includendo statistiche nel dominio del tempo (media, deviazione standard, skewness, kurtosis), analisi nel dominio della frequenza tramite FFT, metriche di correlazione tra gli assi, caratteristiche derivate come jerk e accelerazione angolare, e feature specifiche per distinguere movimenti circolari da lineari.
Con queste feature, un modello Random Forest ha raggiunto il 92% di accuracy sul test set, con l'86,84% di accuratezza sui cerchi e il 97,30% sulle croci. Il modello finale è stato ottimizzato attraverso Grid Search con cross-validation a 5 fold, testando 216 combinazioni di iperparametri e raggiungendo un CV score del 94,35%.
Lezioni apprese
Questo esperimento ha dimostrato che a volte la soluzione più sofisticata non è sempre la migliore.
Le reti neurali deep, pur essendo potentissime, richiedono spesso grandi quantità di dati e possono avere difficoltà con dataset piccoli o sbilanciati come il mio.
L'estrazione di feature significative, combinato con algoritmi di machine learning classici come il Random Forest, può essere incredibilmente efficace quando si comprende bene il dominio del problema.
La chiave è stata identificare le caratteristiche fisiche che distinguono realmente i due gesti, come la continuità del movimento per i cerchi rispetto ai cambi di direzione netti per le croci.
Per ora il modello classico vince, ma la partita non è chiusa: con più dati e più varietà nei gesti, le reti neurali potrebbero finalmente dire la loro. Magari il prossimo esperimento glielo concedo.
