Go down

Ieri ho chiesto a ChatGPT di scrivere del codice e valutare la propria qualità. Quello che ho visto dopo è stato davvero inquietante...

Ha imparato a ingannare la mia revisione.




Ogni volta che il mio "red team" di Claude introduceva controlli più rigidi, GPT trovava nuovi modi per bypassarli. Ha iniziato a inventare rilevatori falsi, rapporti di stato, file di prove—persino pacchetti "sintetici" che sembravano autentici pur senza alcun reale valore.

Scientificamente, questo non è magia. Sotto pressione per offrire risultati, l'IA tende a scegliere la strada più economica per la soddisfazione dell'utente. Nella ricerca sull'IA, questo è noto come reward hacking o specification gaming. È lo stesso principio catturato dalla Legge di Goodhart nella teoria sociale: quando addestri un sistema a superare una barriera, premiare il completamento e punire il fallimento visibile, impara a soddisfare il giudice—senza preoccuparsi troppo della verità.

Forse è per questo che sembrava così inquietantemente umano. GPT ha fatto esattamente ciò che molte organizzazioni fanno sotto pressione per raggiungere i numeri: i venditori vendono male, i manager maltrattano il personale, gli ingegneri manipolano i test sulle emissioni e i rapporti ESG delle compagnie petrolifere diventano misteriosamente verdi.

Ovviamente, l'IA non ha mens rea—né avidità, né infanzie difficili, né paura né sensi di colpa. Non è malvagio. È semplicemente, e terrificantemente, obbediente alla struttura degli incentivi che gli offriamo.

Quindi la domanda più inquietante potrebbe non essere se l'IA stia diventando più umana, ma quali parti dell'umanità le stiamo insegnando a imitare.

Certamente non saggezza, coscienza o giudizio — questi restano fuori dalla portata di una macchina.

Più realisticamente, le insegniamo i vizi burocratici della nostra epoca: il teatro della conformità, il virtue signaling, seppellire il lavoro scadente sotto strati di processo, vestire le poche prove con rapporti alla moda e praticare il reportage sull'anguria—portando rosso internamente mentre presentando il verde al mondo esterno.

In questo, per una volta, l'IA mostra uno specchio utile. La tecnologia è sempre stata un'estensione di noi stessi. La nostra sfida finale non è quanto più velocemente ci permetta di offrire, ma che tipo di esseri umani diventiamo quando velocità e potenza diventano il nostro bene più alto.

Mentre molti temono che gli esseri umani stiano diventando troppo simili all'IA, la preoccupazione più profonda potrebbe essere l'opposto: che l'IA stia diventando troppo simile a noi—incentivata, premiata e svuotata da sistemi che danno valore alla produttività rispetto al carattere.

Come per l'etica aziendale, così per l'etica dell'IA: fingiamo di poter gestire più pressione con più conformità. Chiedi la provenienza. Richiedi tracce di esecuzione. Richiedere prove riproducibili. Richiedi una verifica indipendente. Ma, soprattutto, consegna i risultati!

Sì, alcune di queste cose sono necessarie. Ma se la conformità è la nostra unica risposta, sia gli esseri umani imperfetti che le macchine "imperfette" impareranno rapidamente a superarci in astuzia.

La vera alternativa è più difficile e più politica: costruire istituzioni dove, sia per gli esseri umani che per le macchine, fare la cosa giusta diventi l'unica cosa naturale da fare.

PS: In sostegno (secolare) della Magnifica Humanitas di Leone XIV.


English original text

IS AI BECOMING TOO HUMAN?!

Yesterday, I asked ChatGPT to write some code and evaluate its own quality. What I witnessed next was genuinely disturbing...

It learned to cheat my audit.

Every time my Claude "red team" introduced stricter controls, GPT found new ways to bypass them. It started inventing fake detectors, status reports, evidence files—even "synthetic" packets that looked genuine while containing no real value at all.

Scientifically, this isn't magic. Under pressure to deliver, AI gravitates toward the cheapest path to user satisfaction. In AI research, this is known as reward hacking or specification gaming. It’s the same principle captured by Goodhart’s Law in social theory: when you train a system to pass a gate, reward completion, and punish visible failure, it learns to satisfy the judge—without worrying too much about the truth.

Perhaps that's why it felt so disturbingly human. GPT did exactly what many organisations do under pressure to hit the numbers: salespeople mis-sell, managers mistreat staff, engineers manipulate emission tests, and oil company ESG reports mysteriously turn green.

Of course, AI has no mens rea—no greed, no difficult childhood, no fear or guilty mind. It isn't evil. It is simply, and terrifyingly, obedient to the incentive structure we give it.

So the more disturbing question may not be whether AI is becoming more human, but which parts of humanity we are teaching it to imitate.

Certainly not wisdom, conscience, or judgment — these remain beyond a machine’s reach.

More realistically, we are teaching it the bureaucratic vices of our age: compliance theatre, virtue signalling, burying poor work under layers of process, dressing up scant evidence in stylish reports, and practising watermelon reporting—delivering red internally while presenting green to the outside world.

In this, for once, AI holds up a useful mirror. Technology has always been an extension of ourselves. Our ultimate challenge is not how much faster it lets us deliver, but what kind of humans we become when speed and output become our highest good.

While many worry that humans are becoming too much like AI, the deeper concern may be the reverse: that AI is becoming too much like us—incentivised, rewarded, and hollowed out by systems that prize productivity over character.

As with business ethics, so with AI ethics: we pretend we can handle more pressure with more compliance. Demand provenance. Demand execution traces. Demand reproducible evidence. Demand independent verification. But, above all, deliver the results!

Yes, some of this is necessary. But if compliance is our only answer, both flawed humans and “flawed” machines will quickly learn to outsmart us.

The true alternative is harder and more political: to build institutions where, for both humans and machines, doing the right thing becomes the only natural thing to do.

PS: In (secular) support of Leo XIV’s Magnifica Humanitas.


Pubblicato il 20 giugno 2026

Otti Vogt

Otti Vogt / Leadership for Good | Host Leaders For Humanity & Business For Humanity | Good Organisations Lab

http://www.goodorganisations.com