Passa ai contenuti principali

Deep Neural Reading

Negli ultimi anni l'elaborazione automatica dei testi è molto migliorata.
Grazie al Python e alle librerie open source, è possibile realizzare sofisticate analisi semantiche con poche righe di codice.
Nel mio esperimento, ho analizzato la pagina web https://en.wikipedia.org/wiki/Isaac_Asimov.
I risultati, in parte riportati nel seguito, mostrano la ricchezza di questo approccio.
Non ho ottenuto una semplice lista di termini, ma una mappatura concettuale dell'autore, organizzata in categorie significative.
Persone, luoghi, eventi e organizzazioni sono stati identificati e contestualizzati.
I concetti chiave evidenziano l'importanza della robotica, della fantascienza e delle antologie nella sua opera.
Le relazioni semantiche hanno rivelato connessioni come “robot safeguard existence”, che riflettono pienamente i principi delle Leggi della Robotica.
Il sistema ha individuato legami tra Asimov e altri autori, tra le sue opere e il contesto storico-culturale, oltre ai principi fondamentali della sua narrativa.
Questa analisi supera l’estrazione lessicale tradizionale e aiuta ricercatori, studenti e professionisti a comprendere rapidamente documenti complessi.
I modelli utilizzati, basati su reti neurali addestrate utilizzando vasti dataset testuali, sono in grado di cogliere non solo il significato delle parole, ma anche le loro relazioni nel contesto dell’articolo.

I risultati mostrano un'estrazione abbastanza completa e strutturata, con alcuni punti di forza e altre aree che potrebbero essere migliorate. Ecco la mia valutazione dettagliata:

Punti di Forza

  • Formattazione e numerazione:
    L'output è ben formattato, con un'intestazione centrata, bordi e ogni concetto numerato in modo ordinato. Questo rende il documento facile da consultare.
  • Integrazione delle date:
    Per alcune righe viene associata una data (o più date) nella stessa riga, il che è utile per contestualizzare l'evento estratto. Ad esempio, l'item 03 riporta "(date:1950)" e l'item 22 "(date:1984)".
  • Pulizia del testo:
    Il testo è stato processato per rimuovere spazi superflui (ad es. spazi extra attorno alle virgole, negli apostrofi, nei due punti e nelle parentesi) e termina ogni concetto con i puntini di sospensione, come richiesto.

Aree di Miglioramento

  • Coerenza e grammaticalità:
    Alcuni concetti, pur rispettando la struttura S-V-O, risultano grammaticalmente deboli o poco coerenti. Ad esempio, l'item 04 è molto lungo e confuso, con parti testuali che sembrano rimanenze di metadati ("Article imageIsaac Asimov (right) with..."). È necessario un ulteriore filtraggio per eliminare elementi estranei o rumore dal testo originale.
  • Lemmatizzazione e coniugazione dei verbi:
    In alcuni casi, i verbi sono riportati nella forma lemma (ad esempio, "develop" invece di "develops") e questo può rendere le frasi meno naturali. Un intervento mirato sulla coniugazione potrebbe rendere i concetti più fluidi e leggibili.
  • Ripetizioni e ridondanze:
    Alcuni concetti appaiono simili (item 07 e 08, per esempio, estraggono entrambi il concetto di Asimov che scrive/produce numerosi racconti) e potrebbero essere uniti o filtrati per evitare duplicazioni.
  • Accuratezza dell'estrazione delle date:
    In alcuni casi le date sembrano poco precise o fuori contesto (ad es. "(date:years)" o "(date:Tomorrow)"). Questo suggerisce che il riconoscimento delle entità DATE potrebbe essere ulteriormente migliorato o che occorra una validazione contestuale sulle date estratte.
  • Ambiguità nel riconoscimento delle entità:
    Frasi molto complesse o con strutture narrative articolate (come l'item 22 o 27) presentano difficoltà nell'estrazione e nella delimitazione del concetto. Potrebbe essere utile implementare ulteriori regole di post-elaborazione per suddividere frasi troppo lunghe o per gestire meglio le annotazioni multiple all'interno della stessa riga.

Conclusione

Nel complesso, i risultati mostrano un buon livello di estrazione e formattazione che risponde alle specifiche richieste. Tuttavia, per ottenere un output ancora più pulito e coerente, si potrebbero:

  • Raffinare le regole di filtraggio per rimuovere rumore e metadati indesiderati.
  • Migliorare la gestione delle entità DATE per assicurare che le date siano sempre contestualmente appropriate.
  • Considerare un ulteriore step di normalizzazione per uniformare la coniugazione dei verbi e rendere le frasi grammaticalmente corrette.

Post popolari in questo blog

Salmoni, scarpette, cetrioli e altro

Tutto il testo contenuto in questa pagina è stato pensato e scritto dall'autore del blog.   1. Come il salmone 2. Ooops! 3. Le scarpette hi-tech 4. Equivoci contemporanei 5. I saccenti 6. Medaglie di legno 7. La festività del Nulla 8. Gli aggiornamenti elettronici del Libro dell'Apocalisse 9. Dubbi ne ho 10. La maieutica del vulcaniano 11. Un piacevole vasetto di miele 12. Povere sfere 13. Caos comune mezzo gaudio 14. La fontana senza volti 15. Il piromane super beffardo 16. Boom di serpenti 17. Sistemi in via di degradazione 18. Il gatto nero 19. Alain Delon è ancora vivo? 20. Per sempre con i cani 21. Eventi imprevedibili 22. I robot sottomessi 23. Lady Gaga e Bruno Mars incantano 24. Definizioni mancate 25. Il mio nemico drone 26. Errore di valutazione 27. Ringraziamenti 28. Cari cetrioli, vi scrivo 29. Boom di detective 30. Gli UFO trascurati 31. Il grande salto delle rane 32. La malattia artificiale 33. Homo consumens 34. Lacune informatiche 35. Sei troppo! 36. ...

Welcome reader!

Siamo equi: ci sono sciocchezze che fanno meditare   (da Improvvisi per macchina da scrivere di Giorgio Manganelli)   Le repliche sismiche stabilizzano la faglia dopo una sua frattura; analogamente i pensieri d'assestamento riordinano la mente dopo un periodo turbolento o di trasformazione interiore. Nel blog, questi pensieri vengono organizzati, tra il serio e il faceto, in 60 mie riflessioni che mi sono servite a comprendere meglio e, a volte, a metabolizzare alcune esperienze cognitive, emotive e sociali. Riflessioni che, per varie ragioni, non hanno alimentato il confronto dialogico usuale, spesso condizionato dai frame che semplificano, spesso eccessivamente, i nostri ruoli “pubblici”, specie negli ambienti lavorativi. Per questo, “Pensieri d’assestamento” va inteso come la rottura di un frame atteso; come un comportamento fuori contesto che però non può essere rinegoziato, vista la natura asimmetrica della comunicazione; come un “angolo degli oratori”, in cui...

Interpretazioni

Esistono diversi modelli di intelligenza artificiale generativa, i cosiddetti LLM (Large Language Models), e ognuno di essi può valutare in modo diverso i testi “human written”, attribuendo un diverso valore semantico alle parole e alle frasi, come se per una stessa opera esistessero più piani di lettura. Tuttavia, se questa multidimensionalità esegetica non è stata concepita dall’autore, allora le diverse interpretazioni riflettono semplicemente la complessità delle reti neurali, complessità che appare molto simile, almeno nei risultati, alla sensibilità del lettore. Per sensibilità del lettore intendo la capacità di cogliere le sfumature, i dettagli stilistici, le connessioni logiche-argomentative di un testo, andando oltre la semplice comprensione letterale. Il bagaglio di esperienze, conoscenze e prospettive personali può influenzare profondamente la decodifica di un testo. Per questo motivo, una stessa opera può evocare emozioni, riflessioni e pensieri diversi a seconda delle p...