Passa ai contenuti principali

Attenti al bicchiere

Ci sono notizie che, come l'uranio arricchito, possono innescare reazioni a catena, specialmente quando vengono descritte con metafore legate alla radioattività e termini come “emivita”. 
A tal proposito, Toby Ord, ricercatore senior dell'Università di Oxford, commentando i risultati della ricerca di METR (Model Evaluation & Threat Research), pare abbia parlato di un declino esponenziale delle capacità di alcuni modelli di intelligenza artificiale nel mantenere l'affidabilità su compiti prolungati. 
Per esempio, se un modello ha il 50% di probabilità di completare con successo un task di un'ora, questa probabilità si riduce al 25% per un task di due ore, e continuerà a diminuire per durate maggiori, proprio come un decadimento radioattivo.
Ma le cose stanno davvero così? Secondo me è il solito problema del bicchiere mezzo vuoto o mezzo pieno.
Il bicchiere mezzo pieno
La ricerca METR celebra un progresso straordinario: negli ultimi 6 anni, la capacità dei modelli di gestire compiti lunghi è raddoppiata ogni 7 mesi. È un miglioramento esponenziale impressionante che suggerisce che presto avremo agenti IA capaci di portare a termine task che durano giorni o settimane.
Il bicchiere mezzo vuoto
Secondo gli articoli ai link appresso riportati, Ord pone l'accento sul limite degli agenti IA: se un modello ha il 50% di probabilità di completare un task di un'ora, ha solo il 25% per un task di due ore. Comunque, l'articolo di Ord non intende criticare il progresso dell'IA, ma piuttosto fornire un quadro analitico per comprendere una sfida fondamentale: mantenere la coerenza e l'accuratezza su periodi prolungati o compiti altamente sequenziali. È un richiamo al fatto che, nonostante i notevoli passi avanti, ci sono ancora ostacoli da superare per creare IA che possano operare in modo affidabile su scale temporali o di complessità molto grandi.
In sintesi, questo vicenda ci insegna a:
  • guardare con occhio critico alle metafore: usiamole per chiarire, non per spaventare o ingigantire;
  • bilanciare due visioni complementari: celebrare i rapidi miglioramenti senza sottovalutare le sfide residue;
  • progettare architetture robuste: affrontare esplicitamente la “decadimento” mediante meccanismi di controllo, revisione e modularità;
  • aggiornare costantemente la “baseline: la vera “emivita” dell’affidabilità di un modello viene allungata dai progressi, perciò va ricalcolata nel tempo.
Queste sono le fonti che confermano le informazioni riportate in questo post:
METR Research and Doubling Time:
Toby Ord's Commentary and Exponential Decline:

0% Success on Hard-Coding Problems:






Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

Welcome reader!

Siamo equi: ci sono sciocchezze che fanno meditare   (da Improvvisi per macchina da scrivere di Giorgio Manganelli)   Le repliche sismiche stabilizzano la faglia dopo una sua frattura; analogamente i pensieri d'assestamento riordinano la mente dopo un periodo turbolento o di trasformazione interiore. Nel blog, questi pensieri vengono organizzati, tra il serio e il faceto, in 60 mie riflessioni che mi sono servite a comprendere meglio e, a volte, a metabolizzare alcune esperienze cognitive, emotive e sociali. Riflessioni che, per varie ragioni, non hanno alimentato il confronto dialogico usuale, spesso condizionato dai frame che semplificano, spesso eccessivamente, i nostri ruoli “pubblici”, specie negli ambienti lavorativi. Per questo, “Pensieri d’assestamento” va inteso come la rottura di un frame atteso; come un comportamento fuori contesto che però non può essere rinegoziato, vista la natura asimmetrica della comunicazione; come un “angolo degli oratori”, in cui...

Interpretazioni

Esistono diversi modelli di intelligenza artificiale generativa, i cosiddetti LLM (Large Language Models), e ognuno di essi può valutare in modo diverso i testi “human written”, attribuendo un diverso valore semantico alle parole e alle frasi, come se per una stessa opera esistessero più piani di lettura. Tuttavia, se questa multidimensionalità esegetica non è stata concepita dall’autore, allora le diverse interpretazioni riflettono semplicemente la complessità delle reti neurali, complessità che appare molto simile, almeno nei risultati, alla sensibilità del lettore. Per sensibilità del lettore intendo la capacità di cogliere le sfumature, i dettagli stilistici, le connessioni logiche-argomentative di un testo, andando oltre la semplice comprensione letterale. Il bagaglio di esperienze, conoscenze e prospettive personali può influenzare profondamente la decodifica di un testo. Per questo motivo, una stessa opera può evocare emozioni, riflessioni e pensieri diversi a seconda delle p...