Preparatevi, gli hack dell'intelligenza artificiale stanno arrivando

Pensaci due volte prima di chiedere all'assistente di intelligenza artificiale Gemini di Google di riassumere la tua agenda, perché potresti perdere il controllo di tutti i tuoi dispositivi intelligenti. In una presentazione al Black Hat USA, la conferenza annuale sulla sicurezza informatica di Las Vegas, un gruppo di ricercatori ha mostrato come gli aggressori potrebbero includere comandi nascosti in qualcosa di semplice come un invito di Google Calendar e utilizzarlo per dirottare i dispositivi intelligenti: un esempio del crescente vettore di attacco rappresentato dagli attacchi di iniezione rapida.

L'attacco, descritto in un articolo intitolato "L'invito è tutto ciò di cui hai bisogno!", ha mostrato 14 modi diversi in cui i ricercatori sono riusciti a manipolare Gemini tramite l'iniezione di prompt, un tipo di attacco che utilizza prompt dannosi e spesso nascosti per far sì che modelli linguistici di grandi dimensioni producano output dannosi.

Forse il più sorprendente del gruppo, come evidenziato da Wired , è stato un attacco che è riuscito a dirottare elettrodomestici e accessori connessi a Internet, facendo di tutto, dallo spegnere le luci all'accendere una caldaia, sottraendo sostanzialmente il controllo della casa al proprietario e potenzialmente mettendolo in una situazione pericolosa o compromettente. Altri attacchi sono riusciti a far avviare a Gemini una chiamata Zoom, intercettare dettagli da email e scaricare un file dal browser web di un telefono.

La maggior parte di questi attacchi inizia con qualcosa di semplice come un invito a Google Calendar avvelenato con iniezioni rapide che, una volta attivate, inducono il modello di intelligenza artificiale ad adottare comportamenti che aggirano i suoi protocolli di sicurezza integrati. E questi sono ben lungi dall'essere i primi esempi che i ricercatori di sicurezza sono riusciti a mettere insieme per mostrare le potenziali vulnerabilità degli LLM. Altri hanno utilizzato l'iniezione rapida per dirottare assistenti di codice come Cursor . Proprio il mese scorso, lo strumento di codifica di Amazon è stato infiltrato da un hacker che gli ha ordinato di eliminare i file dalle macchine su cui era in esecuzione.

Sta diventando sempre più chiaro che i modelli di intelligenza artificiale sembrano interagire con comandi nascosti. Un recente studio ha scoperto che un modello di intelligenza artificiale utilizzato per addestrare altri modelli trasmetteva stranezze e preferenze nonostante i riferimenti specifici a tali preferenze fossero filtrati nei dati, suggerendo che potrebbero esserci messaggi in transito tra le macchine che non possono essere osservati direttamente.

Gli LLM rimangono in gran parte delle scatole nere. Ma se sei un malintenzionato, non devi necessariamente capire cosa sta succedendo sotto il cofano. Devi solo sapere come inviare un messaggio che faccia funzionare la macchina in un modo specifico. Nel caso di questi attacchi, i ricercatori hanno informato Google della vulnerabilità e l'azienda ha affrontato il problema, secondo Wired . Ma man mano che l'intelligenza artificiale viene integrata in sempre più piattaforme e in sempre più ambiti della vita pubblica, aumentano i rischi che tali debolezze presentano. È particolarmente preoccupante perché gli agenti di intelligenza artificiale, che hanno la capacità di interagire con app e siti web per completare attività in più fasi, stanno iniziando a essere implementati . Cosa potrebbe andare storto?