Quando l’AI non sa fare le parole crociate: note sparse su un fallimento istruttivo

Martino Pirella

Note sparse, appunto. Sabato è giorno buono per riflessioni leggere su questioni pesanti. Un po’ come l’enigmistica: gioco di superficie che nasconde strutture. Solo che i modelli vedono solo pattern - e nemmeno quelli giusti, a quanto pare.

Ho fatto un esperimento casalingo, niente di scientifico: ho chiesto a Claude, GPT, Gemini, Claude, di risolvere alcuni anagrammi, rebus, sciarade. Roba da Settimana Enigmistica, livello base. Ho chiesto loro di scrivere un pezzo senza usare una vocale, la “e”, come fece magistralmente George Perec con il suo virtuoso romanzo La scomparsa.

Risultato: un disastro quasi comico.

Non “performance subottimali”. Proprio fallimento radicale. Il tipo di errore che faresti se ti chiedessero di suonare il piano con i guantoni da boxe.

Ora, questo è un dato aneddotico. Non ho fatto test sistematici, non ho dataset controllati, non posso escludere che con prompt diversi o modelli più recenti le cose cambino. Ma l’intuizione mi sembra abbastanza robusta da meritare riflessione: **esistono compiti linguistici elementari dove questi sistemi sono strutturalmente in difficoltà**.

E questo dice qualcosa di interessante.

Il paradosso della competenza

La retorica dominante sull’AI generativa ci ha abituati all’idea di sistemi onnipotenti. Scrivono, ragionano, traducono, programmano, conversano. L’elenco si allunga ogni trimestre.

Poi gli chiedi di risolvere ROMA → AMOR e tutto si inceppa.

Non è una curiosità. È un segnale epistemologico. Se falliscono su compiti che molti umani (non tutti, certo - l’enigmistica non è universalmente facile) risolvono quasi senza pensarci, cosa ci dice questo sulla natura della loro “intelligenza”?

L’alibi semantico (e i suoi limiti)

Quando poni questa domanda ai modelli stessi - e c’è già qui un primo livello di ironia - la risposta standard è: “Lavoriamo con i significati, non con le lettere. Siamo macchine semantiche, non combinatorie.”

Bella storia. Ma è precisamente qui che si annida il problema teorico.

I LLM non hanno accesso ai significati nel senso filosoficamente robusto del termine. Non nel senso di Frege, non nel senso di Searle. Non c’è intenzionalità, non c’è riferimento al mondo, non c’è comprensione come la intendiamo quando parliamo di soggetti cognitivi.

Quello che hanno sono pattern di co-occorrenza statistica. “Roma” appare frequentemente vicino a “capitale”, “Italia”, “Colosseo” nei dati di addestramento. Il sistema non “sa” che Roma è la capitale d’Italia - replica regolarità testuali che correlano questi termini.

È predizione travestita da comprensione. Statistica mascherata da semantica.

Ora, questa distinzione - comprensione vs pattern-matching - non è nuova. È tema consolidato in letteratura. Ma la metafora dell’enigmistica la rende visibile in modo particolare.

La materialità perduta

L’enigmistica, almeno quella classica, richiede di trattare le parole come oggetti formali. ROMA non è “la capitale d’Italia”, è R-O-M-A: quattro lettere, ricomponibili in AMOR, MORA, ARMO.

Il gioco enigmistico sospende il regime del senso per operare sul regime della forma pura.

Ma i modelli - almeno quelli attuali, con le architetture correnti - non possono farlo agevolmente. Non perché siano “troppo semantici” (questa sarebbe l’illusione), ma perché **non hanno accesso diretto né alla semantica né alla forma letterale**.

Operano su token - unità computazionali che non coincidono necessariamente con lettere o parole. La tokenizzazione (BPE, WordPiece, e varianti) dissolve la materialità grafica della lingua in frammenti sub-lessicali ottimizzati per efficienza computazionale.

Chiedere a un LLM di riorganizzare le lettere di ROMA è un po’ come chiedere di separare gli ingredienti di una frittata già cotta. La struttura di partenza è stata dissolta nel processo.

E questo limite tecnico - l’impossibilità di accedere alla granularità letterale - rivela qualcosa di più ampio sulla natura della loro operazione linguistica**. Se questi sistemi operassero davvero sul significato delle parole, dovrebbero poter riconoscere e manipolare anche i loro costituenti formali. Il fatto che non ci riescano suggerisce che la loro relazione col linguaggio non passa né per la semantica (il riferimento al mondo) né per la forma (le unità discrete), ma per una terza dimensione: la distribuzione probabilistica dei pattern testuali.

Non vedono parole, non vedono lettere, non vedono significati. Vedono correlazioni.

Certo, alcuni modelli recenti hanno capacità di spelling migliori. Sistemi multi-modali o modifiche architetturali potrebbero superare questi limiti. Non sto proclamando un’impossibilità eterna - sto osservando un pattern attuale che mi sembra sintomatico.

Tre spunti teorici (provvisori)

Primo: questa debolezza smonta la retorica dell’onniscienza. I LLM hanno competenze specifiche, configurate in modi specifici, con limiti - alcuni dei quali banali. Non sono intelligenze generali. Sono dispositivi statistici specializzati nella predizione testuale.

Secondo: il fallimento enigmistico rivela qualcosa sulla natura della loro operazione. Non comprensione semantica ma navigazione probabilistica. Non accesso al significato ma riproduzione di regolarità. Se davvero “capissero” il linguaggio, dovrebbero poter operare anche sulle sue unità costitutive.

Terzo: mostra i limiti della trasferibilità delle competenze. L’intelligenza - algoritmica o umana - non è sostanza omogenea. È sempre situata, configurata, dominio-specifica. Brillanza in un’area non implica competenza in un’altra apparentemente più semplice.

Perché ci interessa (oltre la curiosità tecnica)

Questa distinzione - predizione statistica vs comprensione - non è esercizio accademico. Ha conseguenze materiali.

Quando un sistema di AI viene implementato per valutare candidature di lavoro, analizzare documenti legali, supportare diagnosi mediche, o moderare contenuti, la differenza tra “replica pattern statistici dai dati di training” e “comprende il significato di ciò che elabora” diventa cruciale.

Se il sistema ha imparato correlazioni spurie dai dati storici (e lo farà, inevitabilmente), quelle correlazioni diventeranno predizioni che sembrano comprensioni. Ma non lo sono.

L’enigmistica - nel suo fallimento - ci ricorda questo limite fondamentale. E ci suggerisce che forse dovremmo essere più cauti prima di delegare a questi sistemi compiti dove spacciare pattern per significato può avere conseguenze reali su vite reali.

Coda metodologica

Forse dovremmo dedicare più attenzione sistematica a cosa l’AI *non* sa fare.

I benchmark celebrano performance, successi, miglioramenti. Nessuno pubblica paper sui fallimenti strutturali. Nessuno costruisce dataset di compiti impossibili.

Eppure è nell’incompetenza che si rivela l’architettura. È nel limite che diventa leggibile la configurazione specifica dell’intelligenza.

L’enigmistica è uno di questi limiti rivelatori. Ce ne sono altri, probabilmente molti, da mappare. Non per debunking ma per costruire rapporto meno ideologico, più consapevole con questi dispositivi.

Non simulacri di intelligenza umana. Non oracoli. Ma strumenti statistici, potenti e limitati, che operano su regolarità linguistiche con logica radicalmente diversa dalla nostra.

Pubblicato il 15 novembre 2025