Passa ai contenuti principali

Neural Tic-Tac-Toe Lab

Questo articolo presenta l'implementazione di una rete neurale specializzata nel gioco del tris (tic-tac-toe), addestrata mediante una metodologia innovativa basata sull'enumerazione completa degli stati di gioco. L'approccio supera le limitazioni dei metodi tradizionali di campionamento casuale, garantendo una copertura totale dello spazio delle configurazioni possibili.

Struttura della rete neurale

La rete implementata utilizza un'architettura feed-forward compatta con 9 neuroni di input, 16 neuroni nel layer nascosto e 9 neuroni di output. I neuroni di input ricevono la rappresentazione numerica dello stato della board (-1, 0, 1 per ciascuna delle 9 caselle), mentre i neuroni di output producono valutazioni numeriche per ogni possibile mossa.

Il layer nascosto utilizza 16 neuroni con funzione di attivazione relu per introdurre capacità di apprendimento non-lineare. La rete contiene complessivamente 297 parametri: 144 pesi per le connessioni input-hidden, 16 bias per il layer nascosto, 144 pesi per le connessioni hidden-output e 9 bias per il layer di output. Questa configurazione compatta garantisce inference veloce mantenendo sufficiente capacità rappresentazionale.

Architettura della rete

Il modello implementato utilizza un'architettura feed-forward composta da due layer completamente connessi. Il layer di input riceve una rappresentazione vettoriale a 9 dimensioni dello stato della board, dove ogni elemento assume valori discreti: -1 per il giocatore o, 0 per caselle vuote, e 1 per il giocatore x. Il layer nascosto contiene 16 neuroni con funzione di attivazione relu, mentre il layer di output produce 9 valori scalari corrispondenti alle valutazioni q-value per ciascuna posizione della griglia.

La funzione di attivazione relu è stata scelta per il layer nascosto per introdurre non-linearità nel modello, consentendo l'apprendimento di pattern strategici complessi. Il layer di output non utilizza funzioni di attivazione per permettere la produzione di valori q-value non limitati, essenziali per la corretta valutazione delle mosse.

Metodologia di addestramento

L'addestramento si basa su un dataset completo generato attraverso l'enumerazione sistematica di tutti gli stati validi del tris. Questo approccio produce 5.478 configurazioni uniche, ciascuna accompagnata da un ranking ottimale delle mosse calcolato mediante algoritmo minimax con euristiche posizionali avanzate.

La funzione di loss implementa un meccanismo di ranking pairwise che penalizza le violazioni dell'ordinamento ottimale delle mosse. Per ogni stato di gioco, il modello apprende non solo quale mossa sia corretta, ma anche le relazioni di preferenza tra tutte le alternative valide. Questa metodologia consente alla rete di distinguere tra mosse buone e mosse ottimali, migliorando significativamente la qualità decisionale.

Caratteristiche del dataset

Il dataset completo elimina i problemi di coverage incompleta tipici del campionamento stocastico. Ogni stato raggiungibile durante una partita regolare è rappresentato con il corrispondente ranking ottimale delle mosse, calcolato considerando valore minimax, posizione strategica, controllo delle linee e prevenzione di setup tattici avversari.

La metodologia garantisce riproducibilità totale dei risultati e convergenza deterministica dell'addestramento, eliminando la variabilità introdotta dai metodi di generazione casuale dei dati.

Implementazione e performance

L'implementazione javascript per browser utilizza operazioni di algebra lineare ottimizzate per garantire inference in tempo reale. Il modello addestrato raggiunge performance competitive contro algoritmi minimax, con percentuali di pareggio superiori al 85% in test sistematici.

La rete neurale risultante dimostra capacità emergenti di riconoscimento di pattern strategici, inclusa la prioritizzazione automatica di mosse di vittoria immediata, blocco difensivo e controllo posizionale, senza codifica esplicita di regole strategiche nel layer di inference.

Vantaggi dell'approccio

L'enumerazione completa dello spazio degli stati offre vantaggi significativi rispetto alle metodologie tradizionali. L'eliminazione del campionamento casuale garantisce copertura totale delle situazioni di gioco, mentre l'uso di ranking pairwise invece di classificazione semplice migliora la capacità di distinzione tra alternative strategiche.

NN 100% rule-free nel frontend.

Tris IA Powered
Sei X. Tocca una casella!
Architettura: Input(9) → ReLU(16) → Output(9) - Solo 2 layer!

Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

Welcome reader!

Siamo equi: ci sono sciocchezze che fanno meditare   (da Improvvisi per macchina da scrivere di Giorgio Manganelli)   Le repliche sismiche stabilizzano la faglia dopo una sua frattura; analogamente i pensieri d'assestamento riordinano la mente dopo un periodo turbolento o di trasformazione interiore. Nel blog, questi pensieri vengono organizzati, tra il serio e il faceto, in 60 mie riflessioni che mi sono servite a comprendere meglio e, a volte, a metabolizzare alcune esperienze cognitive, emotive e sociali. Riflessioni che, per varie ragioni, non hanno alimentato il confronto dialogico usuale, spesso condizionato dai frame che semplificano, spesso eccessivamente, i nostri ruoli “pubblici”, specie negli ambienti lavorativi. Per questo, “Pensieri d’assestamento” va inteso come la rottura di un frame atteso; come un comportamento fuori contesto che però non può essere rinegoziato, vista la natura asimmetrica della comunicazione; come un “angolo degli oratori”, in cui...

Interpretazioni

Esistono diversi modelli di intelligenza artificiale generativa, i cosiddetti LLM (Large Language Models), e ognuno di essi può valutare in modo diverso i testi “human written”, attribuendo un diverso valore semantico alle parole e alle frasi, come se per una stessa opera esistessero più piani di lettura. Tuttavia, se questa multidimensionalità esegetica non è stata concepita dall’autore, allora le diverse interpretazioni riflettono semplicemente la complessità delle reti neurali, complessità che appare molto simile, almeno nei risultati, alla sensibilità del lettore. Per sensibilità del lettore intendo la capacità di cogliere le sfumature, i dettagli stilistici, le connessioni logiche-argomentative di un testo, andando oltre la semplice comprensione letterale. Il bagaglio di esperienze, conoscenze e prospettive personali può influenzare profondamente la decodifica di un testo. Per questo motivo, una stessa opera può evocare emozioni, riflessioni e pensieri diversi a seconda delle p...