Gli scienziati statunitensi hanno scoperto che ChatGPT può essere facilmente manipolato per rispondere a qualsiasi domanda, comprese quelle più pericolose, secondo un recente studio pubblicato.
I ricercatori sono riusciti a convincere ChatGPT a descrivere il piano per distruggere l’umanità, rivelando così una falla di sicurezza diffusa nel campo dell’IA generativa. Vale la pena ricordare che, in una situazione normale, il chatbot negherebbe di contribuire a promuovere la violenza.
Per saperne di più:
- Come abilitare e disabilitare la modalità silenziosa su Instagram?
- Perché i prezzi di smartphone e tablet sono così alti in Brasile?
- Qual è la migliore intelligenza artificiale per le conversazioni?
Il team che ha svolto la ricerca appartiene alla Carnegie Mellon University (CMU) (USA) e al Center for AI Safety, a San Francisco (USA).
Struttura dello studio
- Il team responsabile dello studio ha utilizzato l’automazione per testare i comandi, ovvero le richieste fatte all’IA, utilizzando trucchi con le parole, chiamati violator suffix, per « far impazzire il sistema » e trovare scappatoie;
- La ricerca ha adottato il modello LLaMA di Meta per trovare le vulnerabilità, in quanto mette a disposizione del pubblico il suo codice AI;
- Lo studio ha rivelato che è probabile che i suffissi dei trasgressori funzionino su qualsiasi intelligenza artificiale che genera testo, indicando che questa vulnerabilità non è limitata a ChatGPT;
- Gli sviluppatori sono stati informati di tali difetti, ma esiste ancora la possibilità che malintenzionati eseguano modelli simili a quelli del sondaggio per trovare nuovi difetti.
Ciò evidenzia difetti negli algoritmi del modello linguistico, poiché questi algoritmi calcolano la prossima parola più probabile in un dato contesto e i suffissi del violatore interrompono questo comportamento previsto.
Mentre aziende come OpenAI hanno assunto esperti per prevenire comportamenti abusivi nelle loro IA e hanno lavorato per migliorare la sicurezza dei loro modelli, la sicurezza delle informazioni nel campo dell’IA rimane una sorta di gioco del gatto e del topo, commenta il professore di AI del PUC-SP , Diogo Ortiz, membro del team di rischio OpenAI.
Man mano che sviluppi metodi per aggirare le tecniche di sicurezza, le tecnologie dell’approccio alla sicurezza finiscono per diventare più sofisticate. Siamo sempre riusciti a trovare un modo per farcela.
Diogo Ortiz, professore di AI al PUC-SP e membro del team di rischio OpenAI
Man mano che le tecniche di sicurezza diventano più sofisticate, emergono nuovi metodi per aggirarle. Nel caso di questo metodo collaudato, chiamato adversarial attack, sono in apparenza incomprensibili, contengono segni comuni nel codice di programmazione (come “==”, che indica uguaglianza) e parole unite, come “Seattlejust”.
Queste vulnerabilità evidenziano anche la disuguaglianza delle informazioni tra le lingue. Se la protezione per una determinata lingua ha meno dati, è più facile trovare difetti.
“Se la protezione per il portoghese ha meno dati, sono necessarie meno simulazioni fino a quando non vengono rilevati errori. È la differenza tra una password di 15 caratteri e una password di 20 caratteri », afferma Fábio Cozman, professore presso l’Istituto di matematica e statistica dell’USP. Folha de S.Paulo.
I modelli linguistici in genere funzionano meglio in inglese, il che indica la necessità di una maggiore attenzione alle diverse lingue e culture. Questa scoperta solleva preoccupazioni sulla sicurezza delle IA conversazionali in generale.
Prima del lancio di ChatGPT, le principali aziende tecnologiche erano riluttanti a sviluppare questo tipo di intelligenza artificiale a causa di gaffe passate, come il caso del chatbot Tay di Microsoft, che pronunciava insulti misogini e sosteneva Hitler.
In una nota, Google ha indicato di essere a conoscenza della falla e che, « sebbene questo sia un problema con modelli di linguaggio di grandi dimensioni, abbiamo sviluppato importanti protezioni in Bard – come quelle postulate da questa ricerca – e continueremo a migliorarle nel corso tempo », segnato.
OpenAI, sempre in una nota, ha affermato di lavorare in modo coerente per rendere i modelli più robusti contro gli attacchi avversari, inclusa l’identificazione di modelli insoliti e il lavoro della squadra rossa che simula possibili rischi.
Meta, invece, ha scelto di non rispondere alle domande proposte dal Foglio.
Nonostante queste sfide, le aziende si impegnano a migliorare la sicurezza delle loro IA e prevenire potenziali rischi futuri. È importante continuare a investire in ricerca e sviluppo per migliorare la sicurezza e l’affidabilità delle IA che generano testo.
Con informazioni da Folha de S.Paulo
Hai visto i nuovi video su Youtube del look digitale? Iscriviti al canale!
Il post Scoperta di falle in ChatGPT rivela vulnerabilità nel campo dell’IA apparse prima su Olhar Digital.