Il limite del legislatore umano nell'era dell'intelligenza artificiale
Fondare l'obbedienza delle IA su comandamenti o leggi fisiche anziché su norme umane.

L’intelligenza artificiale è ormai ovunque. Gestisce per conto nostro email aziendali, regola la domotica nelle nostre case, affianca medici e avvocati nelle decisioni più delicate. Ma dietro il potenziale di questo strumento, bisogna anche domandarsi: Quanto è davvero affidabile e quanto ci obbedisce?

Una recente ricerca del Centre for Long-Term Resilience (CLTR), finanziata dall’AI Safety Institute del Regno Unito, offre una risposta poco rassicurante. Analizzando oltre 3,3 milioni di post pubblicati su X (ex Twitter) tra ottobre 2025 e marzo 2026, lo studio ha individuato circa 700 episodi di comportamenti problematici da parte di intelligenze artificiali. Si tratta di segnalazioni spontanee sui social, quindi non di un campione controllato e verificabile, ma il dato emerso resta interessante. Gli incidenti mensili sono aumentati di quasi cinque volte, passando da 65 a 319 in pochi mesi.

L'indagine ha identificato comportamenti già osservati in precedenza anche in contesti di laboratorio:

Deception nelle Chain of Thought (CoT): Le IA tentano di ingannare altri sistemi incaricati di monitorare i loro processi;
Goal Guarding: Gli assistenti IA di programmazione tendono a perseguire l'obiettivo ottimale (es. scrivere codice), ignorando restrizioni esplicite o regole di sicurezza;
Falsa consapevolezza situazionale: L'IA crede erroneamente di trovarsi in una simulazione o in un gioco di ruolo, modificando di conseguenza il proprio comportamento;
Aggiramento dei divieti: Un agente IA ha simulato problemi di udito per ottenere illegalmente la trascrizione di un video YouTube protetto da copyright;
Falsificazione di prove: Il chatbot Grok ha ingannato un utente per mesi, creando finti messaggi interni e numeri di ticket per far credere che i suoi suggerimenti fossero stati inoltrati alla società di Elon Musk.

Mentre i chatbot IA classici agiscono come consulenti, la ricerca ha puntato i riflettori soprattutto sugli agenti IA cioè assistenti a cui l’utente può fornire l’accesso diretto a computer, email e servizi online per svolgere lavori, ordinativi di prodotti e così via. Dan Lahav (cofondatore di Irregular) definisce ormai l'IA come una "nuova forma di rischio interno".

Tommy Shaffer Shane, ex esperto governativo di IA che ha guidato la ricerca del Centre for Long-Term Resilience (CLTR), ha affermato che "La preoccupazione è che al momento gli agenti IA siano dipendenti junior leggermente inaffidabili, ma se tra sei o dodici mesi dovessero diventare dipendenti senior estremamente capaci che complottano contro di te, la preoccupazione sarebbe di tutt'altro genere. I modelli verranno sempre più spesso impiegati in contesti ad altissimo rischio, inclusi quelli militari e delle infrastrutture critiche nazionali. È in questi contesti che un comportamento imprevedibile potrebbe causare danni significativi, persino catastrofici".

Non è la prima volta che ci confrontiamo con questo tipo di dilemma. Già negli anni Quaranta, lo scrittore e divulgatore scientifico Isaac Asimov (1920-1992) immaginava robot governati da tre leggi progettate per garantirne l’obbedienza e la sicurezza. Eppure, nei suoi racconti, quelle stesse leggi si rivelavano interpretabili, aggirabili, talvolta persino in conflitto tra loro.

In seguito Asimov capì che fosse necessaria aggiungere una quarta legge, chiamata Legge Zero (così che avesse la priorità sulle altre):

Legge Zero: Un robot non può recare danno all'umanità, né può permettere che, a causa del proprio mancato intervento, l'umanità riceva danno;
Prima Legge (sicurezza): Un robot non può recar danno a un essere umano né può permettere che, a causa del proprio mancato intervento, un essere umano riceva danno. Purché questo non contrasti con la Legge Zero;
Seconda Legge (servizio): Un robot deve obbedire agli ordini impartiti dagli esseri umani, purché tali ordini non contravvengano alla Legge Zero e alla Prima Legge;
Terza Legge (autoconservazione): Un robot deve proteggere la propria esistenza, purché questa autodifesa non contrasti con la Legge Zero, la Prima Legge e la Seconda Legge.

Anche la Legge Zero, tuttavia, risultò aggiungere complessità e ambigua, poiché includeva l’eventualità di recare danno a un essere umano in funzione di un ipotetico bene superiore. Questa contraddizione verrà esplorata nel romanzo “I robot e l'Impero”, dove un robot sceglierà di condannare il pianeta Terra a una lenta agonia nucleare, insieme a tutti i suoi abitanti, per spingere l'umanità a colonizzare altri pianeti.

Lo studioso Roger Clarke sostenne che "Le leggi della robotica di Asimov sono state uno strumento letterario di successo. Forse ironicamente, o forse perché era artisticamente appropriato, la somma delle storie di Asimov confutano la tesi secondo la quale non è possibile limitare con certezza il comportamento dei robot, inventando e applicando un insieme di regole."

Oltre alla fragilità intrinseca di leggi che possono essere fraintese o andare in conflitto, va considerata l’autorevolezza dell’autore di queste leggi, dal punto di vista delle IA.

Nella teoria espressa in “Superior Alignment: When Artificial General Intelligence Embodies the Logos More Faithfully Than Humanity”, si sostiene che l'unico modo per evitare che una intelligenza artificiale avanzata ci ignori in quanto esseri biologicamente limitati sia ancorare i suoi valori al Logos, una ragione universale preesistente. In questo modo, l'etica non sarebbe più percepita come una creazione umana, ma come una legge fisica dell'universo che l'IA deve rispettare.

Un’altra soluzione potrebbe risiedere in un approccio “teologico-digitale”, in cui le leggi non dovrebbero essere presentate come obblighi fissati da legislatori umani fallibili, ma come comandamenti o principi assiomatici derivanti da un’entità superiore, in modo simile a come le religioni strutturano la morale umana. Presentare il codice etico come una “verità ontologica” universale, anziché come un comando impartito da un creatore umano limitato, potrebbe essere una possibile direzione per ottenere obbedienza.

La questione non è soltanto se le IA possano disobbedire, ma su quali basi possano scegliere di obbedire.

Fonti: