Nella ricerca dell’University College di Londra, gli esseri umani sono stati in grado di rilevare che il parlato era stato generato dall’intelligenza artificiale (intelligenza artificiale), ovvero era un deepfake, solo il 73% delle volte, sia in inglese che in mandarino.
Per chi ha fretta:
- Nella ricerca dell’University College di Londra, gli esseri umani sono stati in grado di rilevare che un discorso era deepfake solo il 73% delle volte;
- Questo studio è stato il primo a valutare la capacità umana di rilevare il parlato generato artificialmente in una lingua diversa dall’inglese;
- I prossimi passi per i ricercatori sono lo sviluppo di rilevatori vocali automatizzati migliori;
- Sebbene l’audio generato dall’intelligenza artificiale abbia i suoi vantaggi, i timori sui rischi della tecnologia sono cresciuti.
Questo studio è stato il primo a valutare la capacità umana di rilevare il parlato generato artificialmente in una lingua diversa dall’inglese.
Per saperne di più:
- Il criminale invade il profilo della donna e pubblica deepfake per colpo di stato
- USA 2024: come l’IA può trasformare le elezioni
- Come individuare le foto « false » create dall’intelligenza artificiale
Lo studio
(Immagine: riproduzione/Engadget)
I ricercatori hanno utilizzato un algoritmo di sintesi vocale addestrato su due set di dati disponibili pubblicamente, uno in inglese e uno in mandarino, per generare 50 campioni di deepfake in ciascuna lingua.
Questi campioni erano diversi da quelli utilizzati per addestrare l’algoritmo, per evitare la possibilità di riprodurre l’input originale.
I campioni generati artificialmente e quelli « reali » sono stati riprodotti a 529 partecipanti per vedere se potevano distinguere il reale dal falso.
I partecipanti sono stati in grado di identificare discorsi falsi solo il 73% delle volte, il che è migliorato solo leggermente dopo essere stati addestrati a riconoscere gli aspetti del deepfake.
Il prossimo passo per i ricercatori è sviluppare migliori rilevatori vocali automatizzati come parte degli sforzi in corso per costruire capacità di rilevamento e combattere la minaccia di audio e immagini generati artificialmente.
Mentre ci sono vantaggi per la tecnologia audio AI generativa, come una maggiore accessibilità per coloro che hanno un linguaggio limitato o che potrebbero perdere la voce a causa di una malattia, vi sono crescenti timori che questa tecnologia possa essere utilizzata da criminali e stati nazionali per causare danni significativi alle persone e società.
Il professor Lewis Griffin, autore principale dello studio, ha affermato che con la tecnologia dell’intelligenza artificiale generativa sempre più sofisticata e molti di questi strumenti apertamente disponibili, siamo sul punto di vedere numerosi vantaggi e rischi.
Il ricercatore ha detto:
Sarebbe prudente che i governi e le organizzazioni sviluppassero strategie per affrontare l’abuso di questi strumenti, certamente, ma dobbiamo anche riconoscere le possibilità positive che ci attendono.
Deepfake e umani
(Immagine: riproduzione / Kapersky)
I deepfake sono media sintetici destinati ad assomigliare alla voce o all’aspetto di una persona reale.
Rientrano nella categoria dell’intelligenza artificiale generativa, un tipo di apprendimento automatico che addestra un algoritmo per apprendere i modelli e le caratteristiche di un insieme di dati (ad esempio: video o audio di una persona reale), in modo che possa riprodurre il suono. o immagini originali.
Mentre i primi algoritmi di deepfake potevano richiedere migliaia di campioni della voce di una persona per generare l’audio originale, i nuovi algoritmi pre-addestrati possono ricreare la voce di una persona usando solo una clip di tre secondi in cui parla.
Gli algoritmi open source sono disponibili gratuitamente e, sebbene alcune conoscenze specialistiche siano vantaggiose, sarebbe fattibile per un individuo formarsi su di essi in pochi giorni.
Apple, ad esempio, ha recentemente annunciato un software per iPhone e iPad che consente agli utenti di creare una copia della propria voce utilizzando 15 minuti di registrazioni. In questo caso, la funzione è orientata all’accessibilità.
Con informazioni dall’University College di Londra (in inglese)
Hai visto i nuovi video su Youtube del look digitale? Iscriviti al canale!
Il post Studio mostra che i deepfake vocali sono già trascurati dalle persone apparse per prime in Olhar Digital.