Il vero rischio dei modelli addestrati su dati generati da altri modelli.
C’è un’immagine che descrive bene ciò che sta accadendo all’intelligenza artificiale: un organismo che, crescendo troppo velocemente, inizia a consumare la propria stessa ombra. All’inizio non se ne accorge nessuno. L’ecosistema sembra florido, la produzione aumenta, tutto appare più efficiente. Poi, lentamente, le forme si ripetono, i colori si appiattiscono, le differenze svaniscono.
È questo il punto in cui ci troviamo ora.
Negli ultimi mesi sta emergendo un rischio silenzioso ma concreto: l’intelligenza artificiale sta iniziando a nutrirsi dei propri stessi output. Non è un’ipotesi futuristica, ma un fenomeno reale, osservato in laboratorio e già visibile nell’ecosistema informativo online. Man mano che i contenuti sintetici aumentano, cresce anche la probabilità che i modelli futuri vengano addestrati — volontariamente o meno — su materiale prodotto da altri modelli. È un ciclo di ricorsione che impoverisce progressivamente la qualità informativa.
Nel 2024 uno studio pubblicato su Nature da Shumailov et al. ha dimostrato che quando un modello viene addestrato su dati generati da altri modelli, inizia a perdere diversità informativa: le code della distribuzione spariscono, le sfumature si appiattiscono, le eccezioni vengono eliminate. Il fenomeno è stato definito “model collapse”, una sorta di collasso cognitivo dove il modello smette di generalizzare e inizia a ripetere sé stesso. Altri studi hanno confermato la tendenza: Kazdan et al. (2024) hanno mostrato che, quando i dati sintetici superano quelli umani, la degradazione diventa rapida e difficile da invertire. Shi et al. (2025) hanno evidenziato come i modelli inizino a memorizzare pattern artificiali invece di comprenderne la struttura. L’Ada Lovelace Institute, nel 2025, ha mostrato come i dataset sintetici risultino spesso fuorvianti in compiti che richiedono segnali reali.
Finora questo problema è stato trattato come qualcosa che potremmo affrontare tra dieci anni. In realtà, i tempi potrebbero essere molto più rapidi. Il Guardian, in un’analisi del 2025, ha segnalato che la disponibilità di dati umani “puliti” potrebbe ridursi drasticamente entro pochi anni. La ragione è semplice: i contenuti generati da AI crescono in modo esponenziale, mentre quelli umani crescono in modo lineare. Quando la proporzione tra i due si ribalterà, l’AI inizierà a imparare principalmente da sé stessa, generando un ecosistema informativo autoreferenziale.
Questo porta a tre conseguenze principali. La prima è la perdita di biodiversità informativa: man mano che i contenuti sintetici aumentano, la varietà diminuirà, e i modelli tenderanno a convergere verso gli stessi pattern. La seconda è l’appiattimento del segnale: il “rumore umano”, con le sue imperfezioni e deviazioni, contiene una ricchezza che i modelli sintetici non possono replicare. La terza è l’amplificazione dei bias: ciò che oggi è un errore o una distorsione locale potrebbe diventare, nelle generazioni successive di modelli, una verità statistica apparente.
più l’AI migliora nella generazione di contenuti, più rischia di peggiorare come strumento di comprensione
Il paradosso è che più l’AI migliora nella generazione di contenuti, più rischia di peggiorare come strumento di comprensione. La perfezione formale, che a prima vista sembra un progresso, può diventare un veleno lento: elimina proprio quella complessità irregolare che permette alla macchina di evolvere.
La soluzione non sta nell’aumentare la potenza computazionale o il numero di parametri, ma nel ripensare l’ecologia dei dati. I ricercatori stanno iniziando a parlare di dataset “air‑gapped”, separati dal web generativo, per garantire una base informativa realmente umana. Si stanno sviluppando metodologie di raccolta attiva di contenuti autentici, anche quando sono imperfetti o caotici. Alcuni istituti propongono addirittura di preservare il rumore umano come risorsa strategica: ciò che per anni abbiamo considerato un difetto potrebbe rivelarsi essenziale per mantenere viva la varietà cognitiva dei modelli.
In definitiva, il pericolo non è che l’AI superi l’essere umano, ma che smetta di imparare dal mondo reale. Per evitare un ecosistema informativo sterile e autoreferenziale, dobbiamo proteggere ciò che rende possibile qualsiasi forma di intelligenza: la complessità, la varietà, l’imperfezione. L’AI non deve imparare da ciò che produce: deve imparare da ciò che esiste.