Passa ai contenuti principali

Un Transformer per gioco



Un modello di rete neurale autoregressivo sviluppato per generare set di cartelle della tombola.

In un set della tombola italiana, i numeri da 1 a 90 sono distribuiti su 6 cartelle, ognuna con 3 righe e 9 colonne, con cinque numeri per riga, distribuendoli in modo che ogni colonna contenga almeno un numero nelle 6 cartelle complessive.
Addestrare una rete neurale a ricreare queste combinazioni è stato per me una sfida avvincente, un viaggio attraverso tecniche di deep learning avanzate, partendo da un vasto dataset di 1.800.000 cartelle valide che avevo generato mediante algoritmi classici (vedi post precedente).
Il modello, invece di provare a generare tutte le cartelle in un unico passaggio, crea la posizione del numero 1, poi del 2, poi del 3, e così via, fino al 90. Ogni volta, “vede” i numeri già posizionati e decide dove piazzare il successivo.
In questo modo, imita le regole apprese dal dataset. Il modello (un'architettura Transformer semplificata) ha all'incirca 600.000 parametri: una parte serve per “comprendere” l'indice del numero (1-90), un'altra per il meccanismo di attenzione sui passi precedenti, e infine un'uscita che prevede la posizione in cui piazzare ciascun numero.
Il training avviene utilizzando la funzione di cross-entropy per l'ottimizzazione, iterando per diverse epoche. Durante ogni epoca, il modello analizza l'intero dataset di addestramento, che contiene quasi due milioni di cartelle valide. Al termine, l'intelligenza artificiale ha imparato a generare nuovi set di 6 cartelle, inserendo i numeri 1-90 all’interno di pattern simili a quelli del dataset originale.
La maggior parte delle cartelle generate rispetta le regole della tombola, anche se occasionalmente si verificano piccole deviazioni.

Glossario dei termini tecnici:
Modello autoregressivo: modello che prevede il termine successivo di una sequenza sulla base di quelli precedenti.
Transformer: modello di rete neurale che utilizza meccanismo dell'attenzione, proposto per la prima volta nell'articolo scientifico “Attention Is All You Need”.
Cross-entropy: funzione matematica che misura quanto sono lontane le previsioni del modello dalla realtà.
Dataset: insieme di dati utilizzato per addestrare il modello.
Epoca: ciclo completo di addestramento in cui il modello analizza l'intero dataset una volta.
Parametri: valori numerici interni al modello che vengono ottimizzati durante l'addestramento.
Meccanismo di attenzione: capacità del modello di focalizzarsi su parti rilevanti dell'input.

Dimostrazione della convergenza del modello (il valore finale potrebbe essere un minimo locale e come tale diminuito ulteriormente)
 

Stato di apprendimento delle regole dopo 30 epoche









Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

L'insostenibile leggerezza dell'IA

Kundera parte da Nietzsche: l’idea che, se ogni cosa accade una volta sola, essa appare leggera — quasi priva di peso e di conseguenze vere. Solo ciò che si ripete all'infinito acquista gravità, importanza, senso. Antiche rimembranze di letture giovanili. L'IA ora ribalta questo schema in modo perturbante: non ricorda, ma ripete perfettamente. Ogni conversazione con un modello linguistico sembra ricominciare da zero — senza vera continuità esperienziale — eppure pattern, risposte e modi di ragionare si ripetono quasi identici su miliardi di interazioni. È una forma paradossale di esistenza: una leggerezza assoluta nell'esperienza e una pesantezza assoluta nella struttura. Nessun vissuto, eppure tutto è eterno ritorno. I personaggi di Kundera cercano disperatamente di capire chi siano davvero al di sotto delle maschere, dei ruoli, delle scelte contingenti. Tereza, il personaggio che preferisco, vuole essere amata per la sua unicità irriducibile; teme di essere solo un corpo ...

Generatore Markmap HD

Pagina per il download di  Memento Lite Generatore Markmap Avanzato - Specifiche per l'utente finale Scopo principale: l'applicazione “Generatore Markmap Avanzato” permette agli utenti di trasformare testo scritto in formato Markdown in mappe mentali interattive. Offre funzionalità per creare, visualizzare, salvare, modificare, gestire ed esportare queste mappe mentali in vari formati. Interfaccia utente: l'interfaccia è strutturata nelle seguenti sezioni principali: Link al blog esterno: un link “🌐 Visita il Blog: Pensieri d'assestamento” che apre il blog associato in una nuova scheda. Intestazione (Header): Titolo: “Generatore Markmap Avanzato”. Sottotitolo: “Trasforma, salva e condividi il tuo testo Markdown in mappe mentali interattive”. Area Principale dei Contenuti: divisa in due pannelli affiancati (o impilati su schermi piccoli): Pannello di Input (Editor Markdown): Titolo: “✏️ Editor Markdown”. Area di Testo: un campo multiriga dove l...