UNITE: el detector de vídeos falsos por IA que está revolucionando la lucha contra los deepfakes
Los vídeos falsos generados por inteligencia artificial ya no necesitan un rostro humano para engañarte. UNITE, el nuevo detector de Google, revela cómo la IA puede desenmascarar... a la propia IA.
Por Enrique Coperías
El vídeo "No soy Morgan Freeman" nos presenta una realidad distorsionada a través de una inteligencia artificial capaz de imitar la voz y el rostro del reconocido actor. Puedes verlo aquí: https://www.youtube.com/watch?v=oxXpB9pSETo&t=2s
La era de la desinformación digital ha alcanzado una nueva dimensión, y con ella emergen tecnologías para combatir sus efectos más insidiosos. En un mundo donde un vídeo falso puede desencadenar protestas, arruinar reputaciones o manipular procesos democráticos, un equipo de investigadores de la Universidad de California en Riverside (UC Riverside), en colaboración con Google, ha desarrollado una herramienta revolucionaria: UNITE, un sistema capaz de detectar vídeos manipulados, incluso cuando las falsificaciones van mucho más allá de los tradicionales cambios de rostro.
UNITE, acrónimo de Universal Network for Identifying Tampered and synthEtic videos, representa un salto cualitativo en la detección de contenidos audiovisuales falsos. Frente a la mayoría de los detectores actuales, que dependen en gran medida del análisis facial, este nuevo modelo explora todo el fotograma del vídeo, incluidas las escenas de fondo y los patrones de movimiento.
Esto le permite detectar desde simples trucos visuales hasta vídeos generados completamente con inteligencia artificial (IA) sin necesidad de que haya una cara presente en la imagen, según cuentan los autores del desarrollo en un artículo publicado en el archivo en línea para las prepublicaciones de artículos científicos ArXiv.
«Los deepfakes han evolucionado —explica Rohit Kundu, investigador doctoral en UC Riverside y autor principal del estudio—. Ya no se trata solo de intercambiar rostros. Ahora la gente crea vídeos completamente falsos, desde los rostros hasta los fondos, usando modelos generativos cada vez más potentes. Nuestro sistema está diseñado para detectar todo eso».
UNITE, una respuesta universal a la amenaza de los vídeos sintéticos
Los investigadores de UC Riverside, liderados por el profesor Amit Roy-Chowdhury, especialista en ingeniería eléctrica e informática y codirector del Instituto de Investigación e Inteligencia Artificial RAISE, se unieron a científicos de Google para crear un modelo con capacidad de adaptarse a los múltiples formatos de manipulación digital que proliferan en internet.
A diferencia de los sistemas tradicionales, que suelen colapsar cuando no hay un rostro en el vídeo, UNITE utiliza una arquitectura basada en transformers, la misma tecnología que impulsa modelos como ChatGPT y que es capaz de procesar y correlacionar datos espaciales y temporales con una precisión sin precedentes.
Este enfoque innovador le permite identificar inconsistencias sutiles en el movimiento o el fondo de una escena, que muchas veces son pasadas por alto por otras tecnologías. El modelo se entrena con una técnica novedosa conocida como attention-diversity loss, que lo obliga a prestar atención a múltiples regiones visuales dentro de cada fotograma, evitando que se limite a detectar rostros. ¿Qué significa esto? Imagina que el modelo tiene ojos que recorren el vídeo en busca de señales falsas.
Si solo se fijan en el rostro, podrían pasar por alto anomalías en el fondo, como una sombra mal colocada o un edificio imposible. AD-loss obliga al sistema a mirar diferentes partes de la imagen, ampliando su campo de atención y mejorando su precisión en contextos diversos.
«Si no hay una cara en el encuadre, muchos detectores simplemente no funcionan —advierte Kundu. Y añade—: Pero la desinformación puede adoptar muchas formas. Manipular el fondo de una escena puede distorsionar la realidad con la misma facilidad».
Tecnología con propósito: prevenir el daño antes de que se propague
Los desarrolladores de UNITE se enfrentan a una realidad preocupante: las herramientas para generar vídeos falsos no solo existen, sino que son cada vez más accesibles. Plataformas que permiten crear vídeos realistas a partir de texto o imágenes fijas están disponibles para cualquier persona con conocimientos técnicos moderados.
Estas tecnologías, si no se regulan ni se contrarrestan, podrían ser usadas para fabricar contenidos falsos de líderes políticos, celebridades, periodistas e incluso personas corrientes.
«Da miedo lo accesibles que se han vuelto estas herramientas —afirma Kundu—. Cualquiera con cierta habilidad puede sortear los filtros de seguridad y generar vídeos realistas de figuras públicas diciendo cosas que nunca dijeron».
Aquí es donde entra en juego el potencial de UNITE como herramienta preventiva. Su diseño no está orientado únicamente al análisis posterior de vídeos, sino también a integrarse en flujos de verificación en tiempo real. Redes sociales, plataformas de noticias, verificadores de datos y agencias de seguridad digital podrían incorporar este modelo en sus sistemas para frenar la viralización de contenidos manipulados antes de que se diseminen masivamente.
La imagen compara tres enfoques para detectar videos falsos generados por IA. Los métodos clásicos dependen de rostros y fallan ante fondos alterados o contenido 100% sintético. El enfoque intermedio mejora ligeramente usando todo el encuadre, pero aún es limitado. UNITE, con su modelo de atención distribuida (AD Loss), detecta manipulaciones en rostros, fondos y videos generados desde cero con alta precisión. Cortesía: Rohit Kundu
Entrenamiento con mundos virtuales
Una de las claves del éxito de UNITE está en su entrenamiento. Los investigadores no solo lo alimentaron con bases de datos clásicas de DeepFakes, como FaceForensics++, sino que también incluyeron contenido totalmente sintético, generado dentro del videojuego GTA-V.
Aunque estos vídeos no fueron creados por IA, su naturaleza artificial permite simular escenarios realistas manipulados, lo que ayuda al sistema a reconocer los patrones característicos de los contenidos falsificados.
Gracias a esta estrategia, UNITE no necesita que un vídeo tenga una persona en pantalla para operar. Detecta tanto cambios en primeros planos como alteraciones de fondo y composiciones completamente ficticias.
Resultados que superan el estado del arte
En pruebas comparativas, UNITE superó a los detectores más avanzados del momento, incluso cuando se trataba de contenido generado por modelos como Sora, de OpenAI, y herramientas de creación de vídeo de empresas, caso de Runway y Morph Studio.
Por ejemplo, mientras que detectores tradicionales fallaban estrepitosamente al enfrentarse a manipulaciones de fondo o escenas enteramente artificiales, UNITE alcanzó 100% de precisión en algunos casos. Cuando se le evaluó con el quiz de DeepFakes del New York Times —una prueba que desafía incluso al ojo humano—, el modelo acertó en ocho de diez vídeos.
Los resultados son igual de impresionantes en contextos más conocidos: en bases de datos de rostros manipulados como CelebDF y DeeperForensics, UNITE obtuvo cifras de detección que van del 95% al 99%, mejorando hasta en un 20% respecto a modelos anteriores.
Más allá del blanco y negro
Otra fortaleza del sistema es su capacidad para realizar una clasificación fina del contenido. No se limita a decir si un vídeo es real o falso, sino que también distingue si ha sido parcialmente manipulado (por ejemplo, solo el fondo) o si es completamente sintético.
Esto abre la puerta a herramientas de moderación más transparentes y explicativas, capaces de ofrecer contexto sobre por qué un viídeo ha sido marcado como sospechoso.
Una colaboración estratégica con Google
La alianza con Google fue esencial para la escala y calidad del proyecto. Gracias a esta colaboración, los investigadores de UC Riverside tuvieron acceso a enormes bases de datos y recursos computacionales necesarios para entrenar a UNITE con una amplia gama de vídeos sintéticos, incluídos formatos especialmente difíciles, como los generados a partir de texto o de imágenes estáticas.
«Es un único modelo que maneja todos estos escenarios —resume Kundu—. Eso es lo que lo hace universal».
Este carácter universal fue precisamente el foco del artículo presentado por el equipo en la Conferencia de Visión por Computadora y Reconocimiento de Patrones (CVPR) 2025, uno de los encuentros científicos más importantes en inteligencia artificial y visión computacional. Bajo el título “Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content”, el trabajo fue liderado por Kundu, con coautoría de expertos de Google como Hao Xiong, Vishal Mohanty y Athula Balachandra.
La imagen compara mapas de atención del modelo UNITE entrenado con y sin AD Loss. Sin AD Loss (solo CE), el modelo se enfoca principalmente en el rostro. Con AD Loss, la atención se distribuye por todo el encuadre, mejorando la detección de manipulaciones sutiles. Los ejemplos provienen de videos falsos generados por IA: uno de Celeb-DF y otro por Sora de OpenAI. Cortesía: Rohit Kundu
¿Cómo funciona realmente UNITE?
UNITE basa su capacidad de generalización en el uso de representaciones neutras de dominio, gracias al modelo fundacional SigLIP-So400M. En palabras de Mohanty, este sistema, preentrenado con miles de millones de imágenes, permite a UNITE entender un vídeo más allá de su procedencia, sin necesidad de adaptar el detector a cada tipo de contenido específico. Así, puede trabajar eficazmente tanto en contenido generado por Runway, como por Sora o cualquier otra plataforma emergente.
Los investigadores también realizaron un estudio exhaustivo para afinar su modelo, probando distintas profundidades del transformer, variaciones en la cantidad de cuadros analizados y distintas combinaciones de funciones de pérdida. El resultado fue claro: la combinación del clásico loss de entropía cruzada (Cross-Entropy) con AD-loss siempre arrojó mejores resultados.
Este enfoque permite detectar alteraciones en:
✅ Patrones de movimiento artificiales, como gestos incoherentes o repeticiones sutiles.
✅ Cambios en el fondo, como objetos borrosos o sombras mal sincronizadas.
✅ Anomalías temporales, como cortes suaves donde no deberían existir.
✅ Inconsistencias espaciales, como iluminación contradictoria o deformaciones geométricas.
El modelo no se limita a decir si un vídeo es falso o no, sino que señala con precisión las zonas del vídeo que presentan anomalías visuales, lo que facilita su uso por parte de periodistas, analistas o moderadores de contenido.
De la teoría a la práctica: ¿quién usará UNITE?
Aunque todavía se encuentra en fase de desarrollo, UNITE está diseñado para ser implementado de forma modular y escalable. Esto lo convierte en una opción viable para múltiples actores:
✅ Redes sociales, para filtrar y marcar vídeos sospechosos.
✅ Plataformas de noticias, para verificar contenido generado por usuarios.
✅ Organizaciones de fact-checking, para analizar vídeos virales.
✅ Instituciones públicas y gobiernos, para defender procesos democráticos.
✅ Empresas tecnológicas, para integrar herramientas de autenticación en sus sistemas.
El equipo espera que, a medida que la tecnología se refine, UNITE pueda incluso ayudar a diseñar sistemas que etiqueten los vídeos en tiempo real, alertando a los usuarios cuando se sospeche que el contenido es manipulado.
Imitación de Barack Obama creada con tecnología DeepFake. El vídeo muestra cómo la inteligencia artificial puede manipular audio y video para hacer decir a alguien cosas que jamás dijo. «Estamos entrando en una era en la que nuestros enemigos pueden hacer que cualquiera diga cualquier cosa en cualquier momento», advierte.
La urgencia de actuar: defender la realidad en la era del vídeo sintético
Los investigadores coinciden en lanzar un mensaje claro: la velocidad con la que evoluciona la inteligencia artificial obliga a tomar medidas inmediatas para proteger la información veraz. En un ecosistema digital donde cada vez es más difícil distinguir lo auténtico de lo fabricado, contar con tecnologías robustas de detección no es solo una necesidad técnica, sino una responsabilidad social.
«La gente merece saber si lo que está viendo es real —subraya Kundu—. Y a medida que la inteligencia artificial mejora en fabricar la realidad, nosotros tenemos que mejorar en descubrir la verdad».
El avance de los deepfakes plantea una amenaza directa a la confianza pública, la integridad de las elecciones, la seguridad personal y la cohesión social. No se trata solo de vídeos humorísticos o montajes inofensivos. Las falsificaciones bien hechas pueden provocar conflictos, desinformar a la ciudadanía o manipular la opinión pública a gran escala.
Una IA que protege contra los abusos de la IA
La paradoja actual es meridianamente clara: necesitamos inteligencia artificial para defendernos de los efectos negativos de la propia inteligencia artificial. UNITE representa una de las respuestas más ambiciosas y completas a este reto. En palabras de Roy-Chowdhury, su capacidad para identificar manipulaciones sin depender del rostro, su enfoque universal y su aplicabilidad en múltiples contextos lo convierten en una herramienta clave para el futuro inmediato.
En un entorno donde el vídeo digital se ha convertido en una de las formas más potentes de comunicación, proteger su autenticidad es proteger la verdad misma. Y eso, como han demostrado los investigadores de UC Riverside y Google, es todavía posible.
En la guerra contra la desinformación audiovisual, UNITE no es solo un nuevo soldado: es, probablemente, el más preparado. ▪️
Deepfake de Taylor Swift promocionando falsamente productos de cocina Le Creuset. El vídeo, identificado por McAfee como estafa, circula en redes sociales usando IA para manipular su imagen. Es un ejemplo del uso engañoso de tecnología deepfake para fines comerciales y fraudulentos.
Información facilitada por la UC Riverside
Fuente: Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury. Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content. ArXiv (2025): DOI:
https://doi.org/10.48550/arXiv.2412.12278