La IA ja crea veus i vídeos que es fan passar per humans. Alguns delinqüents l’estan fent servir per enganyar els ciutadans, fent-se passar per empreses o institucions amb la finalitat d’aconseguir els seus diners, com es mostra en aquest vídeo. A mesura que els models de veu generativa maduren, les “fallades” que delaten un deepfake (contingut audiovisual sintètic o manipulat mitjançant models d’IA generativa) són més subtils. La clau no és sentir un robot, sinó distingir la petjada algorítmica d’una mera mala connexió.
Així ho explica Josep Curto, professor dels Estudis d’Informàtica, Multimèdia i Telecomunicació de la Universitat Oberta de Catalunya (UOC), que ofereix senyals pràctics per detectar veus sintètiques en temps real, recomana eines i marques d’aigua amb els seus límits, i proposa un ABC antifrau per a empreses i administracions, en línia amb el Reglament General de Protecció de Dades (RGPD) i la Llei d’IA europea (AI Act).
“A mesura que els models es perfeccionen, els senyals de detecció es tornen més subtils”, adverteix l’expert. La majoria dels deepfakes de veu fallen en la manera com sona la conversa —prosòdia (entonació, accent, ritme, intensitat), pauses, latències sospitosament regulars— més que en la textura del timbre. Per això, en entorns quotidians (una trucada urgent, un suposat avís del banc, una videotrucada improvisada), moltes persones no perceben les anomalies si no saben què observar i com comprovar-ho en el moment.
Curto subratlla una regla d’or: distingir artefactes de xarxa d’imperfeccions algorítmiques. En una mala connexió, el so fluctua i el desfasament àudio/vídeo és erràtic; en el contingut sintètic, les “fallades” tendeixen a ser consistents (entonació plana o salts de to improbables, pauses col·locades on la gramàtica no les espera, latències de resposta “massa iguals”). En una videotrucada, els microsenyals del rostre —parpelleig, ombres, detall dels cabells i de les orelles— delaten més que el mateix lipsync (correspondència temporal entre moviment de llavis i so de la parla): quan és IA, apareixen petites incoherències visuals que no s’expliquen per compressió o amplada de banda.
Per a un test en directe, l’expert recomana trencar la inèrcia del model: demanar que repeteixi una frase inesperada, introduir soroll de context (picar de mans davant del micròfon, teclejar fort) o intercalar interrupcions curtes per forçar la variació en la prosòdia. Si persisteixen l’entonació antinatural o les latències constants, s’activa el protocol: callback (devolució de trucada) a un número verificat i comprovació de la safe word (paraula clau acordada prèviament per autenticar). “La millor defensa és l’escepticisme humà, més verificació per un segon canal i menys petjada pública de la teva veu”, resumeix el professor de la UOC.
Cinc senyals fiables en temps real (i com no confondre’ls amb una mala connexió)
1. Prosòdia no natural i entonació plana
La veu no flueix emocionalment: es produeixen pauses uniformes o mal situades, tons monòtons o salts abruptes. En mala xarxa, sents talls o compressió, però quan torna el senyal, l’accent i l’entonació de base sonen humans.
2. Artefactes espectrals (“metall”, clics finals)
Xiuxiueig o lluentor anòmala en cues de paraula; àudio massa net per a l’entorn. En mala xarxa, el soroll i la qualitat fluctuen, mentre que els artefactes d’IA tendeixen a ser consistents.
3. Desajustament llavis-veu en videotrucada
Retard constant o microanomalies (llavis que “suren” sobre les dents). En mala xarxa hi ha desfasament, però el moviment facial continua sent orgànic.
4. Microgestos estranys
Parpelleig escàs, mirada fixa, ombres i il·luminació aplanades, cabells/orelles amb píxels estranys. En mala xarxa veuràs congelacions o un macropixelat típic de la compressió, no aquests detalls fins.
5. Latència sospitosa
Demores massa regulars o canvis bruscos sense motiu. Els models triguen un temps fix a “escopir” la resposta completa; la xarxa deficient provoca latències irregulars i avisos de “connexió inestable”.
Detectors i marques d’aigua: útils, però no màgics
La detecció d’un àudio sintètic és una mena de carrera armamentista en constant evolució, explica Curto. Les eines disponibles se centren en l’anàlisi forense d’artefactes que els models d’IA encara no han après a eliminar. Aquestes són les dues solucions més prometedores:
1) Detecció forense (models de classificació)
Analitzen trets acústics (artefactes espectrals, prosòdia no natural, etc.) per reconèixer patrons d’entrenament d’IA.
- ASVspoof Challenges: conjunts de referència (com Logical Access LA, Physical Access PA) i mètriques per entrenar/comparar detectors. Les taxes d’error pugen quan l’spoofing (clonació de veu) fa servir un model diferent del de l’entrenament.
- Eines per a mitjans (per exemple, VerificAudio): usades en redaccions (PRISA Media) amb doble capa d’IA: senyals sintètics + verificació contextual. Precisió no pública, varia per idioma; risc de falsos positius amb àudio molt comprimit o sorollós.
- Detectors de plataformes (per exemple, ElevenLabs): fiables sobre el seu propi àudio; no generalitzen bé generadors aliens (Google/Meta).
2) Marques d’aigua (watermarking)
Estratègia d’etiquetar en origen el contingut generat. Algunes maneres de fer-ho són:
- AudioSeal (Meta): marca imperceptible que permet la detecció puntual (quines parts s’han alterat). Disponible gratuïtament a GitHub. Vulnerable a la compressió MP3, pitch-shift o reverberació; creixen els falsos negatius amb postprocessat adversari.
- SynthID (Google): marca multimodal (va néixer en imatge; s’estén a àudio i text). Cerca ser detectable després d’edicions (retallada, compressió). La seva eficàcia depèn dels estàndards (ISO/IEC) i l’adopció: si el generador no la implementa, no serveix.
Quatre bones pràctiques (proactives) per protegir la veu
La millor defensa és l’escepticisme humà (prosòdia, context, moviment), complementat amb una forta verificació de la identitat (codis clau) i la limitació de l’exposició de la petjada vocal pública, explica Curto.
En el context de la recerca, s’estudia com crear distorsions imperceptibles per a un humà, però que confonguin els algorismes d’entrenament d’IA que intenten extreure la petjada vocal. La idea és “enverinar” el conjunt de dades d’entrenament sense afectar la comunicació humana. Aquest és el futur de la protecció proactiva.
Les següents són una sèrie de bones pràctiques a l’abast de tots:
- Consentiment i privacitat: no compartir enregistraments sense propòsit clar; en entorns corporatius, exigir el consentiment per gravar/analitzar la biometria vocal. Revisar els assistents (Alexa/Google) i desactivar l’emmagatzematge continu i la funció d'”ajudar a millorar el servei”.
- MFA (autenticació multifactorial) per a la constatació vocal: establir “Codi de Seguretat” / “Frase Anti-Deepfake” inesperada, rotativa i contextual. Exemple: “Quina és la paraula del dimarts?”.
- Gestionar la petjada vocal pública: limitar la publicació d’àudios llargs i nítids en obert. Si es publiquen, baixar el bitrate (quantitat de dades processades per segon mesurades en kbps) o afegir música de fons.
- Tecnologies d’anul·lació/soroll blanc: dispositius (exemple: HARP Speech Protector) o programari amb ultrasons/soroll de banda ampla que interfereixen amb micròfons. Cars, d’abast limitat i amb possibles restriccions legals.
Un ABC pràctic i explicat per a empreses i administracions
Quan arribi una trucada amb una petició sensible (pagaments, contrasenyes, canvis urgents), l’ordre ideal per verificar és aquest:
A. Confirma qui parla
Comença per una verificació humana i contextual fent servir una safe word (paraula de seguretat) acordada prèviament. La resposta ha de revisar-la una persona —un supervisor o, com a mínim, un sistema secundari no automatitzat— per evitar que un model generi una rèplica versemblant sense control.
B. Si persisteix el dubte, trenca el guió
Aplica un callback creuat (out-of-band verification o confirmar la identitat d’algú fent servir un canal de comunicació diferent): talla amb naturalitat (“La qualitat és dolenta, ara li torno la trucada”) i truca tu a un número verificat que consti en el teu CRM/expedient (registres verificats de contactes). Mai no tornis la trucada al número entrant. Si la persona atén pel canal/número esperat i el context coincideix, l’autenticitat és molt probable. Aquest pas desmunta molts intents perquè obliga l’estafador a controlar també el segon canal.
C. Si no valida, deixa rastre i escala
Activa el protocol d’alerta interna per intent de frau. Tanca la conversa amb una frase de seguretat (“Per protocol hem de finalitzar aquesta trucada”), registra l’hora, l’origen aparent (encara que sigui fals) i els senyals anòmals observats (“prosòdia plana en respondre la clau”, latència constant, etc.), i eleva-ho immediatament al departament de ciberseguretat o legal.
Tot això funciona només si el personal està format: cal entrenar la detecció de canvis emocionals i, sobretot, evitar cedir davant la urgència o la pressió, tàctiques típiques per impedir el callback.
Marc legal mínim a Europa (què implica per a la veu)
RGPD (Reglament General de Protecció de Dades)
La veu és una dada personal. Si a més s’utilitza per identificar de manera unívoca algú, passa a ser una dada biomètrica (art. 9) i requereix salvaguardes reforçades: consentiment o base legítima adequada, finalitat clara, minimització (només les dades estrictament necessàries) i control de conservació (terminis i esborrament).
EU Artificial Intelligence Act o AI Act (Llei d’IA de la UE)
Classifica els sistemes per risc. La identificació biomètrica per veu entra, per regla general, en alt risc: exigeix un sistema de gestió de riscos, avaluacions d’impacte en drets fonamentals (FRIA) i supervisió humana efectiva en la presa de decisions. A més, la Llei prohibeix usos que manipulin el comportament o explotin vulnerabilitats (inclosa la veu), així com simular emergències o coaccions per obtenir diners o dades, fins i tot si no hi ha clonació i només es genera el missatge amb IA.














