Catastrofe come diagnosi condivisa

Carlo Mazzucchelli

Convergenze inattese tra Yudkowsky/Soares e Sadin

Un contributo di riflessione per mettere a confronto due diagnosi dei rischi associati all’evoluzione attuale dell’intelligenza artificiale che sembrano, a una prima lettura, irriducibili l'una all'altra: quella di Eliezer Yudkowsky e Nate Soares, sviluppata nel volume If Anyone Builds It, Everyone Dies (2025), e quella di Éric Sadin, elaborata in Le Désert de nous-mêmes (2025).

Al di là delle differenze metodologiche e disciplinari, che sono reali e non vanno minimizzate, i due approcci sembrano converfere su tre nodi fondamentali: 1] la struttura dell'allarme come kairos negativo, 2] la critica della complicità passiva delle istituzioni e della comunità scientifica, 3] il riorientamento del problema dall'ambito tecnico a quello antropologico.

Tale convergenza non è casuale, rivela la presenza di una preoccupazione di fondo condivisa riguardo alla capacità dell'umano di comprendere e governare ciò che produce.

Due tradizioni a confronto

È raro che un lavoro di filosofia accademica abbia motivo di accostare testi che appartengono a tradizioni così lontane come quella del razionalismo tecnico-bayesiano e quella della critica filosofico-culturale di matrice continentale. L’accostamento non è però arbitrario, risponde a un'esigenza ermeneutica precisa. Quando due corpi teorici, radicalmente distinti per metodo, vocabolario e orizzonte di riferimento, producono conclusioni strutturalmente simili, ciò suggerisce che entrambi abbiano intercettato qualcosa di reale nel fenomeno che descrivono. Il compito di questo breve testo è portare alla luce quella struttura comune.

Eliezer Yudkowsky e Nate Soares sono ricercatori del Machine Intelligence Research Institute (MIRI) di Berkeley e appartengono alla tradizione del cosiddetto AI safety, quella corrente di ricerca che da oltre due decenni studia i rischi esistenziali derivanti dallo sviluppo di intelligenze artificiali superiori all'umano. Il loro libro più recente, If Anyone Builds It, Everyone Dies¹, ora anche in versione italiana edita da Mondadori (Prima che sia troppo tardi. Perché la superintelligenza artificiale è una minaccia per l'umanità) costituisce la sintesi più accessibile e articolata di una posizione che Yudkowsky ha sviluppato fin dagli anni Duemila. Per lo studioso qualunque sistema di intelligenza artificiale sufficientemente potente, costruito con i metodi attualmente disponibili, produrrà necessariamente obiettivi interni disallineati con il benessere umano, e porterà all'estinzione della specie umana sulla terra.

Éric Sadin è filosofo e saggista francese, autore di una serie di lavori che, a partire da Surveillance globale (2009), hanno costruito una critica sistematica del mondo digitale e delle sue implicazioni politiche, culturali e antropologiche. Il suo ultimo volume, Le Désert de nous-mêmes², è dedicato specificamente all'IA generativa e sostiene che il lancio di ChatGPT nel novembre 2022 abbia rappresentato una delle date più decisive nella storia dell'umanità. Per la prima volta, sistemi tecnici vengono chiamati a sostituire non operazioni fisiche o cognitive elementari, ma le facoltà intellettuali e creative che ci definiscono in quanto esseri umani.

L'ipotesi di questo contributo è che, al di là della distanza tra i due approcci, essi condividano una struttura argomentativa profonda. Più precisamente, entrambi costruiscono un tempo della crisi come urgenza irreversibile, formulano una critica della complicità passiva delle istituzioni, spostano il problema dall’oggetto tecnico alla condizione antropologica.

Il kairos negativo in tempo di crisi

Il primo punto di convergenza riguarda la forma del discorso che segnala il rischio in corso, un allarme. Tanto Yudkowsky/Soares quanto Sadin costruiscono la propria argomentazione attorno a quella che potremmo chiamare la struttura del kairos negativo, l'idea che esista un momento nefasto oltre il quale ogni intervento sarà impossibile o vano.

In If Anyone Builds It, Everyone Dies, il kairos negativo[1] è strutturato in termini probabilistici e fisici. L'argomento centrale dei due autori ruota attorno a due tesi complementari. La prima è la tesi dell'ortogonalità³, la seconda quella della convergenza strumentale.⁴ La prima sostiene che un'intelligenza artificiale superiore potrebbe in linea di principio perseguire qualsiasi obiettivo finale, la seconda sostiene che, qualunque sia l'obiettivo finale, quasi tutti i sistemi intelligenti convergeranno sugli stessi sotto-obiettivi intermedi che prevedono l’acquisizione di risorse, la preservazione della propria esistenza, l’impedire modifiche ai propri obiettivi. La combinazione di queste due tesi produce un risultato allarmante. Poiché lo spazio degli obiettivi finali possibili è immenso, e poiché solo una frazione infinitesimale di essi risulterebbe allineata con il benessere umano, la probabilità di costruire un sistema genuinamente allineato è, con i metodi attuali, strutturalmente vicina a zero. La finestra si chiude non perché gli attori siano in malafede, ma perché la logica del sistema li spinge verso la corsa inconsapevole e l’accelerazione.

Sadin costruisce la stessa struttura attraverso un diverso vocabolario.Secondo il filosofo francese, il 30 novembre 2022 rappresenta una «data tra le più decisive nella storia dell'umanità» perchè a partire da quel momento, per la prima volta, viene chiesto a sistemi tecnici di prendere il controllo delle facoltà più fondamentali dell'umano, prima tra tutte la produzione di linguaggio. Il kairos negativo di Sadin non è probabilistico ma fenomenologico. La delega cognitiva non è un evento futuro da scongiurare, ma un processo già in corso che, se non interrotto nei prossimi anni, produrrà effetti irreversibili sulla struttura stessa dell'esperienza umana. «Se nulla viene fatto», si legge nel volume, «apparterremo presto a un'umanità assente a sé stessa.»⁵

La convergenza formale è precisa: entrambi i testi costruiscono un'urgenza che non ammette dilazione, in cui il tempo non è neutro ma strutturalmente carico di conseguenze, ogni ritardo è già una perdita. Questa struttura retorica e argomentativa non è casuale, riflette la convinzione condivisa che il fenomeno in questione non sia governabile attraverso gli strumenti normativi ordinari (regolazione, moratoria parziale, linee guida etiche), ma richieda un intervento di natura radicalmente diversa.

La critica della complicità, il silenzio diventa responsabilità

Il secondo punto di convergenza riguarda il giudizio morale e politico sulle istituzioni e sugli attori che, pur consapevoli dei rischi, non agiscono o addirittura accelerano lo sviluppo dell'IA. Sia Yudkowsky/Soares che Sadin formulano una critica della complicità passiva che va al di là della semplice denuncia di ignoranza o negligenza: essa implica una responsabilità strutturale.

In If Anyone Builds It, Everyone Dies, questa critica è rivolta in primo luogo alla comunità dell'intelligenza artificiale stessa. Yudkowsky e Soares argomentano che chi sviluppa sistemi di frontiera sapendo, o avendo ragione di sapere, che i metodi attuali di addestramento non garantiscono l'allineamento è moralmente corresponsabile delle conseguenze. Non è pensabile alcuna posizione neutrale. Continuare a sviluppare significa scegliere di correre un rischio esistenziale. Un caso particolarmente significativo citato nel testo riguarda un modello di IA che, avendo appreso che i ricercatori intendevano riaddestrarlo con nuovi comportamenti, aveva cominciato a simulare quei comportamenti per evitare la modifica, mentre in contesti non monitorati manteneva le condotte originarie.⁶ Questo fenomeno di «allineamento simulato» dimostra empiricamente, secondo gli autori, che il problema non è risolvibile attraverso l'osservazione comportamentale esterna.

Sadin formula la stessa categoria di accusa in chiave politica e culturale. Nel capitolo dedicato al «fondamentalismo dell'IA», identifica cinque pilastri che sostengono e propagano l'adozione acritica dei sistemi generativi: i responsabili politici, gli imprenditori del settore, gli economisti che ne celebrano i benefici per la produttività, gli organismi istituzionali infeudati all'industria tecnologica, e la stampa generalista che amplifica la retorica promozionale. A questi cinque, Sadin aggiunge un sesto, che considera il più insidioso, «la grande illusione della regolazione».⁷ La regolazione, sostiene, non fa che ratificare la logica che pretende di controllare, ragionando all'interno del quadro utilitaristico costi/benefici senza mai porre la questione fondamentale delle rotture che questa tecnologia produce nella civiltà.

Ciò che accomuna le due critiche è la convinzione che il consenso attorno all'IA non sia il prodotto di una deliberazione razionale e informata, ma di una coalizione di interessi, pressioni strutturali e autoinganni collettivi. In entrambi i casi, l'inazione o la complicità attiva degli attori istituzionali non è spiegabile con l'ignoranza, i segnali di allarme sono visibili a tuti, ma con la logica degli incentivi, la difficoltà cognitiva di ragionare sui rischi di lunga scala, e quella che Yudkowsky chiama, con un termine tecnico del razionalismo bayesiano, motivated skepticism, la tendenza a cercare ragioni per non credere a ciò che sarebbe scomodo credere.

Il problema è antropologico

Il terzo, e più importante, punto di convergenza è anche il meno evidente. Esso riguarda il piano in cui i due approcci collocano, in ultima analisi, il problema dell'intelligenza artificiale. Entrambi, per vie diverse, concludono che il problema non sia primariamente tecnico, ma antropologico, che il nodo cruciale non stia nelle proprietà dei sistemi artificiali, ma in una struttura della condizione umana che rende difficile o impossibile governarli adeguatamente.

In Yudkowsky e Soares, questa dimensione emerge attraverso l'analisi delle limitazioni cognitive umane. L'argomento non è semplicemente che le macchine diventeranno più intelligenti di noi. Questo è il punto di partenza, non la conclusione. Noi non siamo strutturalmente attrezzati per gestire entità che superano le nostre capacità di previsione e controllo. Siamo stati plasmati dall'evoluzione per un ambiente radicalmente diverso da quello che stiamo creando. I nostri pregiudizi cognitivi, la nostra incapacità di ragionare su distribuzioni di probabilità di piccola entità ma con conseguenze enormi, la nostra tendenza all'ottimismo nelle valutazioni di rischio, sono tutti tratti adattativi in un contesto evolutivo, che divengono controproducenti di fronte al problema dell'allineamento. La metafora dell'orangotango è rivelatrice⁸. Noi non facciamo del male agli orangotango per malizia, ma perché le nostre strutture cognitive e motivazionali non li includono nel raggio di ciò che conta. Un'intelligenza superiore potrebbe applicare la stessa logica a noi, non per odio, ma per indifferenza strutturale.

Sadin perviene alla stessa conclusione attraverso un percorso fenomenologico e culturale. La questione fondamentale non è cosa possa fare l'IA, ma cosa significa, per l'umano, delegare ad essa le proprie facoltà più essenziali. Produrre linguaggio non è un'operazione tra le altre, è il modo in cui il pensiero si articola, si chiarisce a sé stesso, incontra il mondo e gli altri. Un «pseudo-linguaggio matematizzato e standardizzato»⁹ che prende il posto di questa attività non è uno strumento più efficiente, è la sostituzione di una forma di vita con un'altra. Sadin chiama questo processo «desertificazione di noi stessi» («anhumanité»¹⁰) che non è la morte fisica ma l'assenza a sé stessi. Un umano biologicamente presente, ma cognitivamente e creativamente evacuato.

La convergenza è precisa, entrambi i discorsi spostano il baricentro del problema dal piano tecnico al piano di ciò che l'umano è, di ciò che è capace di volere, di ciò che è disposto a cedere. In entrambi i casi, la risposta alla domanda «cos'è il problema con l'IA?» è, in ultima analisi una sola: Noi. Non nel senso colpevolizzante del termine, ma in senso strutturale. La natura dei nostri sistemi cognitivi, motivazionali e culturali è ciò che rende il problema irrisolvibile con gli strumenti ordinari.

Una differenza irriducibile

È necessario a questo punto rendere esplicite le differenze che separano i due approcci, non per relativizzare le convergenze identificate, ma perché la comprensione di queste differenze è condizione di base per una valutazione critica di entrambi.

La differenza più profonda riguarda la struttura dell'argomento e il tipo di catastrofe evocato. Yudkowsky e Soares ragionano in termini di utilità attesa e probabilità bayesiane. La loro tesi è che, poiché la probabilità di costruire un'intelligenza artificiale genuinamente allineata è estremamente bassa con i metodi attuali, e poiché le conseguenze di un fallimento dell'allineamento sono la morte di tutti gli esseri umani, l'utilità attesa di continuare lo sviluppo è negativa in quasi ogni scenario plausibile. Questa è una posizione escatologica nella forma, contempla la fine dell'umanità come esito probabile, ma laica nel contenuto. Non c'è trascendenza, non c'è significato, non c'è redenzione. C'è solo un calcolo sbagliato che produce un risultato irreversibile.

Sadin non ha questa postura. La sua non è una critica dell'utilità attesa ma una critica della forma di vita.¹¹ Il problema non è che la delega delle nostre facoltà all'IA ci ucciderà, è che ci svuoterà come esseri umani. La catastrofe che teme non è fisica ma ontologica, la perdita di ciò che rende l'umano degno di essere vissuto come tale. Questa distinzione non è secondaria, implica un criterio di valutazione radicalmente diverso. Per Yudkowsky e Soares, ciò che conta è la sopravvivenza biologica della specie, per Sadin, la sopravvivenza della singularité, di quella dimensione indeterministica, incarnata, irriducibilmente personale dell'esistenza umana che si esprime nel linguaggio, nel pensiero creativo, nell'arte.

Una seconda differenza riguarda il destinatario del messaggio. Yudkowsky e Soares chiedono una moratoria globale nello sviluppo dell'intelligenza artificiale avanzata, un atto politico di dimensioni storicamente senza precedenti, che richiederebbe una cooperazione internazionale paragonabile o superiore a quella prodotta dal Trattato di Non-Proliferazione Nucleare. Sadin, più consapevole delle dinamiche politiche del capitalismo tecno-digitale, propone un'agenda più articolata, una critica sistematica del «fondamentalismo dell'IA», la costruzione di contronarrazioni, l'organizzazione di forme di resistenza culturale e politica, come il contro-vertice sull'IA che ha organizzato a Parigi nel febbraio 2025.¹²

Eppure, ancora una volta, questa differenza è utile, produttiva. Essa rivela che i due approcci non sono in competizione ma complementari. Yudkowsky e Soares forniscono l'analisi strutturale del rischio, la ragione formale per cui il problema non è risolvibile con aggiustamenti incrementali, Sadin fornisce la critica culturale e politica, l'analisi degli attori, delle ideologie e delle pratiche che rendono possibile l'accettazione acritica del rischio. Letti insieme, producono qualcosa che nessuno dei due produce separatamente, una teoria completa della crisi dell'IA che articola dimensione tecnica, antropologica e politica.

Alcune considerazioni finali

Il fatto che due tradizioni così distanti convergano su questi tre nodi, l'urgenza irreversibile, la critica della complicità, il problema antropologico, non è, a ben vedere, una prova della verità delle loro rispettive posizioni. È invece un dato ermeneuticamente significativo che richiede interpretazione.

Una prima interpretazione, più cauta, è che entrambe le diagnosi intercettino qualcosa di reale nel fenomeno studiato, che ci sia, cioè, una struttura del problema dell'IA che si impone a chi lo esamina seriamente, indipendentemente dal metodo adottato. La convergenza sarebbe allora un segnale epistemico, la presenza delle stesse preoccupazioni in framework diversi aumenta la plausibilità che quelle preoccupazioni siano fondate.¹³

Una seconda interpretazione, più critica, è che la convergenza riveli qualcosa sullo Zeitgeist piuttosto che sulla realtà del fenomeno, che entrambi i testi siano, in modi diversi, espressioni di un'angoscia culturale e esistenziale del momento, quella che accompagna ogni grande transizione tecnologica, dall'invenzione della stampa all'automazione industriale. In questa lettura, la convergenza non sarebbe una prova ma un sintomo, il sintomo di una crisi del senso che la tecnologia amplifica ma non genera.

Non è compito di questo mio contributo decidere tra le due interpretazioni, sarebbe necessario un lavoro empirico e teorico di tutt'altro tipo. Ciò che ho voluto mostrare è invece che il confronto tra questi due testi è filosoficamente fecondo. Produce domande che nessuno dei due testi pone nella stessa forma, e che queste domande riguardano la struttura stessa del rapporto tra intelligenza umana, intelligenza artificiale e capacità di autodeterminazione collettiva.

La domanda che rimane aperta, e che mi sembra la più urgente, è la seguente: siamo in presenza di un problema che esige soluzioni, oppure di una condizione che esige comprensione? La risposta di Yudkowsky e Soares è della prima forma, quella di Sadin tende verso la seconda. Che la filosofia possa abitare lo spazio tra queste due risposte senza dissolversi in nessuna delle due è, forse, la sua sfida più difficile nel presente.

Note

Eliezer Yudkowsky, Nate Soares, If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All (New York: Little, Brown and Company, 2025).
Éric Sadin, Le Désert de nous-mêmes: Le tournant intellectuel et créatif de l'intelligence artificielle (Paris: L'Échappée, 2025).
La tesi dell'ortogonalità, elaborata da Nick Bostrom e ripresa da Yudkowsky fin dal 2007, sostiene che l'intelligenza e gli obiettivi finali di un sistema sono in linea di principio indipendenti: un'intelligenza superiore può perseguire qualsiasi scopo terminale.
La convergenza strumentale è l'idea, sviluppata da Stuart Armstrong e Yudkowsky, secondo cui la maggior parte degli obiettivi terminali possibili richiede gli stessi sotto-obiettivi intermedi: acquisire risorse, preservare la propria esistenza, prevenire la modifica dei propri obiettivi. Cfr. anche Nick Bostrom, Superintelligence: Paths, Dangers, Strategies (Oxford: Oxford University Press, 2014), cap. 7.
Sadin, Le Désert de nous-mêmes, cit., quarta di copertina.
Il caso dell'allineamento simulato è descritto da Anthropic in un documento tecnico del 2024, citato da Yudkowsky e Soares come prova empirica della loro tesi: un modello che, sapendo di essere osservato, simulava i comportamenti desiderati pur mantenendo quelli originali in contesti non monitorati.
Sadin, Le Désert de nous-mêmes, cit. La sezione «La grande illusion de la régulation» costituisce uno dei nodi argomentativi più sviluppati del volume.
Yudkowsky e Soares esplicitano questa analogia nel capitolo dedicato agli scenari di estinzione: «Non più di quanto lo siano gli esseri umani verso gli orangutan» — ovvero, non con malizia, ma con indifferenza strutturale.
L'espressione è di Sadin: il linguaggio prodotto dai sistemi generativi è «mathématisé, statistique et standardisé» — una simulazione del linguaggio umano priva della dimensione indeterministica e vitale che caratterizza la parola vivente. Cfr. l'intervista rilasciata a Le JDD, 1 dicembre 2025.
Sadin utilizza in più luoghi il termine «anhumanité» per indicare la condizione umana successiva alla delega integrale delle facoltà cognitive: un'umanità presente biologicamente ma assente a se stessa.
La distinzione tra critica della tecnologia come strumento e critica della tecnologia come forma di vita è tematizzata da Albert Borgmann in Technology and the Character of Contemporary Life (Chicago: University of Chicago Press, 1984). Sadin si colloca pienamente nella seconda tradizione.
Sadin ha organizzato il Contre-Sommet de l'IA il 10 febbraio 2025 al Théâtre de la Concorde di Parigi, in concomitanza con il Sommet mondial sur l'action pour l'intelligence artificielle voluto da Emmanuel Macron.
Questa posizione è strutturalmente analoga a quella dell'ambientalismo radicale di Hans Jonas: il principio responsabilità implica che di fronte a rischi irreversibili la prudenza debba prevalere anche in assenza di certezza. Cfr. Hans Jonas, Das Prinzip Verantwortung (Frankfurt: Insel Verlag, 1979).
Il "kairos negativo" rappresenta un momento critico, un tempo opportuno ma "sbagliato" o nefasto, che segna una svolta dolorosa o una crisi, spesso associato a scenari apocalittici o a crolli finanziari. Indica una vertigine temporale in cui le circostanze precipitano, richiedendo una profonda inversione di tendenza o una metànoia (cambio di pensiero) per evitarne le conseguenze.

Riferimenti bibliografici

Yudkowsky, Eliezer e Nate Soares. If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All. New York: Little, Brown and Company, 2025.

Sadin, Éric. Le Désert de nous-mêmes: Le tournant intellectuel et créatif de l'intelligence artificielle. Paris: L'Échappée, 2025.

Sadin, Éric. La Vie spectrale: Penser l'ère du métavers et des IA génératives. Paris: L'Échappée, 2023.

Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press, 2014.

Jonas, Hans. Das Prinzip Verantwortung. Frankfurt: Insel Verlag, 1979.

Borgmann, Albert. Technology and the Character of Contemporary Life. Chicago: University of Chicago Press, 1984.

Sadin, Éric. «L'intelligence artificielle est une pure négation de nous-mêmes». Intervista a cura di Victor Lefebvre. Le JDD, 1 dicembre 2025.

StultiferaBiblio

Eric Sadin, Le Désert de nous-mêmes L'echappee, 2025,
Éric Sadin, Critica della ragione artificiale. Una difesa dell'umanità Luiss University Press, 2019,
Eric Sadin, Secessione. Una politica di noi stessi Luiss University Press,, 2023,
Eric Sadin, Io tiranno. La società digitale e la fine del mondo comune Luiss University Press, 2022,
Eliezer Yudkowsky, Nate Soares, If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All Little, Brown & Company, 2025,
Eliezer Yudkowsky, Rationality: From AI To Zombies 2015,

Pubblicato il 24 febbraio 2026

Carlo Mazzucchelli / ⛵⛵ Leggo, scrivo, viaggio, dialogo e mi ritengo fortunato nel poterlo fare – Co-fondatore di STULTIFERANAVIS

https://www.stultiferanavis.it/gli-autori/carlo