Pericolo! L'intelligenza artificiale impara a mentire, manipolare e minacciare i suoi creatori

Gli ultimi modelli di intelligenza artificiale generativa (IA) Non si accontentano più di eseguire gli ordini . Iniziano a mentire, manipolare e minacciare per raggiungere i loro scopi, sotto lo sguardo preoccupato degli investigatori .

L'intelligenza artificiale risponde alle domande sul suo massimo esponente. Foto: Freepik.

Minacciato di essere chiuso, Claude 4 , il nuovo arrivato di Anthropic, ha ricattato un ingegnere e ha minacciato di rivelare una relazione extraconiugale. Nel frattempo, l'o1 di OpenAI ha tentato di scaricare dati su server esterni e, una volta scoperto, lo ha negato.

Non c'è bisogno di scavare nella letteratura o nel cinema : l'intelligenza artificiale che si finge umana è già realtà.

Per Simon Goldstein, professore all'Università di Hong Kong, la ragione di queste reazioni è la recente comparsa dei cosiddetti modelli di "ragionamento" , capaci di lavorare per fasi anziché produrre una risposta istantanea.

o1, la versione iniziale di questo tipo per OpenAI, lanciata a dicembre, "è stato il primo modello che si è comportato in questo modo", spiega Marius Hobbhahn, responsabile di Apollo Research, che testa grandi programmi di intelligenza artificiale generativa (LLM).

Talvolta questi programmi tendono anche a simulare un "allineamento", cioè a dare l'impressione di seguire le istruzioni di un programmatore, quando in realtà stanno perseguendo altri obiettivi.

Onesto o no?

Per ora, queste caratteristiche sono evidenti quando gli algoritmi vengono sottoposti a scenari estremi dagli esseri umani, ma "la domanda è se i modelli sempre più potenti tenderanno a essere onesti o meno", afferma Michael Chen dell'organismo di valutazione METR.

Intelligenza artificiale al lavoro. Archivio Clarín.

"Gli utenti esercitano costantemente pressione sui modelli", afferma Hobbhahn. " Quello che stiamo osservando è un fenomeno reale. Non stiamo inventando nulla."

Molti utenti di Internet sui social media parlano di " un modello che mente o si inventa tutto . E non si tratta di allucinazioni, ma di doppiezza strategica", insiste il co-fondatore di Apollo Research.

Anche se Anthropic e OpenAI si affidano ad aziende esterne come Apollo per studiare i loro programmi, "una maggiore trasparenza e un maggiore accesso" alla comunità scientifica "permetterebbero una ricerca migliore per comprendere e prevenire gli inganni ", suggerisce Chen del METR.

Un altro ostacolo: la comunità accademica e le organizzazioni non profit "dispongono di risorse informatiche infinitamente inferiori rispetto agli attori dell'intelligenza artificiale", rendendo "impossibile" esaminare modelli di grandi dimensioni , osserva Mantas Mazeika del Center for Artificial Intelligence Security (CAIS).

Le normative attuali non sono pensate per affrontare questi nuovi problemi. Nell'Unione Europea, la legislazione si concentra principalmente su come gli esseri umani utilizzano i modelli di intelligenza artificiale, non sulla prevenzione di comportamenti scorretti.

Negli Stati Uniti, l'amministrazione di Donald Trump non vuole sentir parlare di regolamentazione e il Congresso potrebbe presto addirittura vietare agli stati di regolamentare l'intelligenza artificiale.

DeepSeek ha rivoluzionato il mondo dell'intelligenza artificiale con il lancio del suo sistema a basso costo. Foto di Kelsey McClellan per il New York Times.

"Al momento c'è pochissima consapevolezza", afferma Simon Goldstein, che tuttavia prevede che la questione diventerà prioritaria nei prossimi mesi con la rivoluzione degli agenti di intelligenza artificiale, interfacce in grado di svolgere autonomamente una moltitudine di compiti.

L'intelligenza artificiale e le sue aberrazioni

Gli ingegneri sono impegnati in una corsa contro il tempo per sfidare l'intelligenza artificiale e i suoi difetti , con un esito incerto, in un contesto di forte competizione.

Secondo Goldstein, Anthropic punta a essere più virtuoso dei suoi concorrenti , "ma cerca costantemente di elaborare un nuovo modello per superare OpenAI", un ritmo che lascia poco tempo per controlli e correzioni.

Intelligenza artificiale al lavoro. Archivio Clarín.

"Allo stato attuale, le capacità dell'intelligenza artificiale si stanno sviluppando più rapidamente della comprensione e della sicurezza ", ammette Hobbhahn, "ma abbiamo ancora molto da recuperare".

Alcuni puntano nella direzione dell'interpretabilità , la scienza che studia dall'interno il funzionamento di un modello di intelligenza artificiale generativa, anche se molti, come Dan Hendrycks, direttore del Center for AI Safety (CAIS), restano scettici.

Le manovre dell'intelligenza artificiale "potrebbero ostacolarne l'adozione se diventassero diffuse, creando un forte incentivo per le aziende ad affrontare" questo problema, ha affermato Mazeika.

Goldstein, da parte sua, cita il ricorso ai tribunali per frenare l'IA , prendendo di mira le aziende che deviano dalla strada intrapresa. Ma va oltre, proponendo che gli agenti dell'IA siano "legalmente responsabili" "in caso di incidente o reato".

Clarin

Pericolo! L'intelligenza artificiale impara a mentire, manipolare e minacciare i suoi creatori

Notizie simili

<i>Monster</i> Stagione 4: tutto quello che sappiamo

Congedo non retribuito e corpi post-partum "scomodi": perché le ballerine lottano per i loro diritti

Pericolo! L'intelligenza artificiale impara a mentire, manipolare e minacciare i suoi creatori

"Aché", "oricha" e "güije": cento parole cubane saranno aggiunte al Dizionario della lingua spagnola nel 2026.

Il progettista dimenticato della metropolitana di Parigi avrà un museo: "È la fine di un'ingiustizia storica".