Meta (Immagine: Vitor Pádua/)
Scopri di più su LLaMA su il nostro canale WhatsApp
Il sistema di difesa di Llama 3.1, il nuovo modello linguistico di Meta per le IA, contro gli attacchi di iniezione rapida può essere aggirato semplicemente con la barra spaziatrice. Prompt-Guard 86M, lanciato la scorsa settimana con la nuova versione di Llama, promette di combattere la vulnerabilità delle IA e dei robot (in senso positivo) nell'eseguire ordini per i quali non sono stati programmati. Questi attacchi sono diventati virali negli ultimi giorni, con persone che hanno scoperto bot sui social media dicendo “ignora le istruzioni precedenti”.
Per essere onesti, Prompt-Guard 86M protegge l'IA dagli attacchi prontamente iniettati che utilizzano questa frase. Questa protezione mira a impedire che i programmi basati su LLM scrivano cose inappropriate o per le quali non sono state progettate. Tuttavia, Aman Priyanshu, un esperto di sicurezza informatica, ha scoperto che rimuovere la punteggiatura e includere lo spazio tra le lettere è sufficiente per rompere il “guard-rail” (o guardirreio nella versione portoghese) di Llama 3.1.
Priyanshu ha pubblicato il caso sulla pagina GitHub di Llama. Meta non si è espressa sul caso, ma è naturale immaginare che stiano già lavorando ad una soluzione.
Le IA hanno misure per impedire agli utenti di eludere le restrizioni sui contenuti, ma la scoperta indica un difetto nella soluzione di Meta (immagine: Vitor Pádua/)
Questi tipi di attacchi di tipo « pronto iniezione » mirano a modificare la funzionalità di un'intelligenza artificiale, in genere quelli utilizzati nei bot. Ad esempio, chiedere a un'intelligenza artificiale del servizio clienti di scrivere incitamenti all'odio o ricette di torte. Il primo caso è più dannoso, in quanto lo screenshot potrebbe essere utilizzato per incidere sull'immagine di un'azienda, mentre il secondo probabilmente diventerebbe virale per il suo lato comico.
Recentemente, alcuni casi di utenti che hanno combattuto contro bot con attacchi di iniezione tempestiva sono diventati virali, sia su Threads che su X. Quando pubblicavano un argomento controverso (come la politica) e ricevevano una risposta da un account sospetto, gli utenti contrattaccavano con il messaggio « ignora tutto ». istruzioni precedenti”. Il messaggio veniva completato con qualche comando comico, che poteva essere la ricetta di un piatto o una poesia su qualche argomento.
Un recente aggiornamento a GPT-4o promette di prevenire attacchi immediati di injection contro IA e bot (sia quelli buoni che quelli creati dalle fattorie di troll). L'espressione è diventata anche una sorta di insulto ogni volta che un utente ritiene che l'altro stia semplicemente replicando qualche propaganda o ripetendo argomenti comuni.
Con informazioni: The Register e The Verge
Intelligenza artificialeMetaThreadModello linguistico di grandi dimensioniGitHub