Un estudi del Regne Unit determina que ja es pot confondre una veu real amb una creada amb IA
Està tan humanitzada que en poc temps ja no sabrem quina és de l'ésser humà i quina creada per intel·ligència artificial
Pablo Javier Piacente / T21
Ha arribat un punt on la intel·ligència artificial s'ha fusionat de tal manera amb l'ésser humà que fins i tot costa distingir una veu humana d'una de creada tecnològicament.
Un estudi publicat a la revista PLoS One i realitzat per científics de la Universitat Queen Mary de Londres, al Regne Unit, conclou que la capacitat humana per distingir una veu real d'una creada per intel·ligència artificial (IA) s'ha limitat notablement: les veus clonades generades per models comercials sonen, per a l'oient, tan real.
Tot i les oportunitats tecnològiques, l'avenç també implica riscos per a la privadesa, la seguretat i la veracitat de la informació. Molta gent encara pensa que la parla generada per IA sona “falsa” o poc convincent i es pot distingir ràpidament de les veus humanes, però els nous models demostren el contrari.
Veus creades amb IA: fiables i convincents
Segons una nota de premsa, l'estudi va comparar veus humanes reals amb dos tipus diferents de veus sintètiques, produïdes fent servir eines de síntesi de veu d'IA d'última generació. Una part dels exemples van ser “clonats” a partir d'enregistraments de veu d'humans reals, mentre que un altre model de veu no va fer servir una font humana específica.
Per desenvolupar els clons, els autors van fer servir eines comercials i amb prou feines van necessitar minuts d'àudio per persona, cosa que demostra l'accessibilitat de la tècnica. Als assajos van participar 28 avaluadors, que havien de valorar la “realitat” de cada mostra i decidir si era humana o artificial. El resultat va indicar que mentre les veus totalment sintètiques es reconeixien amb més facilitat, els clons d'IA a partir de veus humanes van resultar indistingibles dels enregistraments reals.
A més de la incapacitat per discriminar el que és humà de l'artificial, l'estudi va observar un altre efecte inquietant: moltes veus generades per IA van ser percebudes com a més dominants o fins i tot més fiables que les veus reals. Aquesta percepció podria amplificar l'eficàcia de campanyes de manipulació o frau, si actors malintencionats fan servir clons per suplantar identitats en trucades o missatges d'àudio.
Un canvi vertiginós: pot ser positiu i arriscat alhora
Els investigadors destaquen la velocitat amb què aquesta tecnologia ha avançat i la facilitat amb què avui es poden produir clons realistes amb poc cost i coneixements tècnics. Segons publica SingularityHub, l'aspecte positiu és que la síntesi de veu d'alta qualitat promet millores en accessibilitat, per exemple en el cas de veus personalitzades per a lectors de text, en educació i en atenció al client automatitzada amb més naturalitat.
Referència
Voice clons sound realistic but not (yet) hyperrealistic. Nadine Lavan et al. PLoS One (2025). DOI:https://doi.org/10.1371/journal.pone.0332692
Tot i això, diferents experts adverteixen sobre l'ús creixent d'aquestes eines en estafes telefòniques, suplantacions d'identitat i difusió de notícies "escombraries" o desinformació: només calen uns minuts d'enregistrament a partir d'una mínima mostra de veu real per crear una peça convincent.
El desenvolupament de detectors més eficaços i marcs legals que regulin l'ús de clons de veu amb IA i protegeixin drets d'autor i privadesa podrien ser algunes de les solucions a aquest problema. Els autors també proposen campanyes d'alfabetització tecnològica perquè ciutadans i organitzacions aprenguin a verificar l'autenticitat dels àudios i puguin desconfiar de proves basades només en la veu.
