Passa ai contenuti principali

Golden Gate Bridge Experiment


Non è un “Philadelphia Experiment” della West Coast (con buona pace dei complottisti); questa volta a sparire non è una nave ma alcune risposte attese di un chatbot.
Il concetto di unlearning, descritto nella mia riflessione n. 41, “Dimentica!”, può essere messo in relazione con la manipolazione delle features nei modelli di intelligenza artificiale come Claude. Nel tentativo di far dimenticare a una rete neurale contenuti specifici, come quelli protetti da copyright, si deve intervenire direttamente sui pesi di particolari pattern di neuroni, denominati features, individuabili mediante sofisticate tecniche di dictionary learning o di reverse engineering. Purtroppo, finora ciò ha comportato un deterioramento delle prestazioni generali del modello, perché le informazioni apprese sono spesso collegate in maniera complessa e olistica.
Il team di ricerca di Anthropic è riuscito a manipolare alcune features nel modello conversazionale Claude. Ad esempio, amplificando la feature collegata al concetto “Golden Gate Bridge”, il modello inizia a menzionare ossessivamente nelle sue risposte il famoso ponte di San Francisco, arriva addirittura a immedesimarsi con esso. Viceversa, attenuando la feature, il modello riduce significativamente l’importanza di questo concetto, come se diventasse reticente a fornirne spiegazioni. Se si disattivano i neuroni del pattern, il concetto cade nell’oblio e il modello diventa anche meno capace di riconoscere i riferimenti al Golden Gate Bridge. Questo significa che, nelle prestazioni generali della rete neurale, si viene a creare un vero e proprio buco di memoria che coinvolge anche altri concetti. Deduco che questo avvenga perché i vari pattern si intersecano (come si evince dagli schemi forniti), interagendo fra di loro. Sarebbe come voler cancellare alcuni ricordi specifici rimuovendo solo una piccola porzione del cervello: le conseguenze sono in gran parte imprevedibili.

Dimentica!
Si scrive unlearning ma si legge grattacapo. Le tecniche per far dimenticare i contenuti protetti da copyright alle reti neurali basate sui Transformer, secondo nuovi studi di alcune università americane e dell’immancabile Google, inciderebbero in modo significativo sulle prestazioni dei vari chatbot. Difficile non pensare alla terapia elettroconvulsivante, meglio nota come elettroshock, che consiste nell’applicare scariche elettriche controllate al cervello del paziente. Tempo fa si utilizzava per trattare condizioni psichiatriche gravi. 
Forse il sogno degli esperti dell’intelligenza artificiale è quello di cancellare nelle risposte del chatbot ogni riferimento che potesse dimostrare l’utilizzo per l’addestramento di determinati libri. Sarebbe come agognare un dispositivo per cancellare i testi della seconda media, o quello che ci rimane, dalla nostra testa. Anche la “cultura” dei modelli LLM è, purtroppo per loro, un concetto olistico.

Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

Welcome reader!

Siamo equi: ci sono sciocchezze che fanno meditare   (da Improvvisi per macchina da scrivere di Giorgio Manganelli)   Le repliche sismiche stabilizzano la faglia dopo una sua frattura; analogamente i pensieri d'assestamento riordinano la mente dopo un periodo turbolento o di trasformazione interiore. Nel blog, questi pensieri vengono organizzati, tra il serio e il faceto, in 60 mie riflessioni che mi sono servite a comprendere meglio e, a volte, a metabolizzare alcune esperienze cognitive, emotive e sociali. Riflessioni che, per varie ragioni, non hanno alimentato il confronto dialogico usuale, spesso condizionato dai frame che semplificano, spesso eccessivamente, i nostri ruoli “pubblici”, specie negli ambienti lavorativi. Per questo, “Pensieri d’assestamento” va inteso come la rottura di un frame atteso; come un comportamento fuori contesto che però non può essere rinegoziato, vista la natura asimmetrica della comunicazione; come un “angolo degli oratori”, in cui...

Interpretazioni

Esistono diversi modelli di intelligenza artificiale generativa, i cosiddetti LLM (Large Language Models), e ognuno di essi può valutare in modo diverso i testi “human written”, attribuendo un diverso valore semantico alle parole e alle frasi, come se per una stessa opera esistessero più piani di lettura. Tuttavia, se questa multidimensionalità esegetica non è stata concepita dall’autore, allora le diverse interpretazioni riflettono semplicemente la complessità delle reti neurali, complessità che appare molto simile, almeno nei risultati, alla sensibilità del lettore. Per sensibilità del lettore intendo la capacità di cogliere le sfumature, i dettagli stilistici, le connessioni logiche-argomentative di un testo, andando oltre la semplice comprensione letterale. Il bagaglio di esperienze, conoscenze e prospettive personali può influenzare profondamente la decodifica di un testo. Per questo motivo, una stessa opera può evocare emozioni, riflessioni e pensieri diversi a seconda delle p...