Passa ai contenuti principali

Discesa del Gradiente

Tutto l’apprendimento delle reti neurali moderne si fonda sulla discesa del gradiente.
Pensate che l’idea di questo algoritmo risale al 1800, ma solo negli anni ’80 è stata riscoperta grazie alla backpropagation.
C’è stata una fase buia nell’intelligenza artificiale, denominata “la seconda era glaciale” (vedi post omonimo), quando, dopo le critiche di Minsky e Papert al Perceptron, sembrava che le reti neurali si dovessero accantonare per sempre.
Poi, nel 1986, Rumelhart, Hinton e Williams hanno trovato un modo per aggiornare i pesi negli strati nascosti e hanno dato vita al cosiddetto “disgelo” delle reti neurali.
Il deep learning, così come lo conosciamo oggi – capace di interpretare immagini e testo – è esploso solo quando è stato possibile combinare hardware potente, montagne di dati e versioni migliorate della discesa del gradiente.
La cosa bella di questo algoritmo è che funziona secondo una logica semplicissima:
  1. Definisci cosa vuoi minimizzare (funzione di costo).
  1. Calcola il gradiente (la direzione della massima pendenza).
  1. Aggiorna i pesi andando nella direzione opposta.
  1. Ripeti finché non converge.
In questo esperimento si parte da un punto qualsiasi di una funzione a tre variabili e si “scende di quota”, passo dopo passo, seguendo la discesa del gradiente con un learning rate fisso, finché non diventa quasi nullo o raggiungiamo il numero massimo di tentativi (condizione di non convergenza).
Dal grafico si possono scorgere le traiettorie che l’algoritmo percorre: alcune finiscono in minimi locali (come gli alpeggi o le radure vallive), mentre solo una scende nella vallata più bassa, il minimo globale.
Semplice ma geniale: è questa semplicità che ha permesso al deep learning di conquistare il mondo
La funzione dello script Python, in realtà, è un “assemblato”.
La prima parte:

\( f(x, y) = 2[(x^2 + y - 11)^2 + (x + y^2 - 7)^2] \)

è la ben nota funzione di Himmelblau, usata spesso per testare algoritmi di ottimizzazione perché ha più minimi locali, che qui ho esteso al 3D con l’aggiunta di un termine quadratico centrato in z = 3 (il fattore 5 rende la parabola più stretta in modo da guidare la discesa):

\( f(z) = 5(z - 3)^2 \)

Il gradiente diventa:
\[ \nabla f(x, y, z) = \begin{bmatrix} 2 \left[4x(x^2 + y - 11) + 2(x + y^2 - 7)\right] \\ 2 \left[2(x^2 + y - 11) + 4y(x + y^2 - 7)\right] \\ 10(z - 3) \end{bmatrix} \]

L’applicazione dell’algoritmo di discesa del gradiente trova correttamente il punto più basso “programmato” della funzione:

  • Minimo trovato: [-2.805, 3.131, 3.0]
  • Valore della funzione: praticamente 0

Il grafico mostra in modo più marcato il minimo globale e il cammino che conduce ad esso.

Promemoria
Formula generale per l’aggiornamento dei pesi (discesa del gradiente): \[ w_{ij} := w_{ij} - \eta \cdot \frac{\partial E}{\partial w_{ij}} \] In una rete neurale semplice, la derivata può essere calcolata come:
\[ \frac{\partial E}{\partial w_{ij}} = \delta_j \cdot o_i \] Dove \[ o_i\] è l'output del neurone.
E\[\delta_j\] l'errore nel caso di un neurone con funzione di attivazione g, è:
\[ \delta_j = (t_j - y_j) \cdot g'(h_j) \]


Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

Welcome reader!

Siamo equi: ci sono sciocchezze che fanno meditare   (da Improvvisi per macchina da scrivere di Giorgio Manganelli)   Le repliche sismiche stabilizzano la faglia dopo una sua frattura; analogamente i pensieri d'assestamento riordinano la mente dopo un periodo turbolento o di trasformazione interiore. Nel blog, questi pensieri vengono organizzati, tra il serio e il faceto, in 60 mie riflessioni che mi sono servite a comprendere meglio e, a volte, a metabolizzare alcune esperienze cognitive, emotive e sociali. Riflessioni che, per varie ragioni, non hanno alimentato il confronto dialogico usuale, spesso condizionato dai frame che semplificano, spesso eccessivamente, i nostri ruoli “pubblici”, specie negli ambienti lavorativi. Per questo, “Pensieri d’assestamento” va inteso come la rottura di un frame atteso; come un comportamento fuori contesto che però non può essere rinegoziato, vista la natura asimmetrica della comunicazione; come un “angolo degli oratori”, in cui...

Interpretazioni

Esistono diversi modelli di intelligenza artificiale generativa, i cosiddetti LLM (Large Language Models), e ognuno di essi può valutare in modo diverso i testi “human written”, attribuendo un diverso valore semantico alle parole e alle frasi, come se per una stessa opera esistessero più piani di lettura. Tuttavia, se questa multidimensionalità esegetica non è stata concepita dall’autore, allora le diverse interpretazioni riflettono semplicemente la complessità delle reti neurali, complessità che appare molto simile, almeno nei risultati, alla sensibilità del lettore. Per sensibilità del lettore intendo la capacità di cogliere le sfumature, i dettagli stilistici, le connessioni logiche-argomentative di un testo, andando oltre la semplice comprensione letterale. Il bagaglio di esperienze, conoscenze e prospettive personali può influenzare profondamente la decodifica di un testo. Per questo motivo, una stessa opera può evocare emozioni, riflessioni e pensieri diversi a seconda delle p...