Una inteligencia artificial ayuda a detectar indicios de violencia de género a partir de la voz sin identificar a la persona

Un equipo de la Universidad Carlos III de Madrid ha desarrollado un sistema capaz de identificar señales asociadas al trauma por violencia de género analizando únicamente cómo suena la voz. La tecnología, basada en inteligencia artificial, promete una detección precoz sin invadir la privacidad ni revelar la identidad de quien habla.

Por Enrique Coperías, periodista científico

La inteligencia artificial desarrollada por la Universidad Carlos III de Madrid analiza patrones acústicos de la voz —como el tono o el ritmo— para detectar posibles señales de violencia de género sin revelar la identidad de quien habla.

La inteligencia artificial desarrollada por la Universidad Carlos III de Madrid analiza patrones acústicos de la voz —como el tono o el ritmo— para detectar posibles señales de violencia de género sin revelar la identidad de quien habla. Crédito: IA-DALL-E-RexMolón Producciones

La inteligencia artificial (IA) ya es capaz de detectar depresión, riesgo de suicidio e incluso algunas enfermedades neurológicas a partir de la voz. Ahora, un equipo de investigadoras de la Universidad Carlos III de Madrid o UC3M (España) y del Hospital Universitario de Múnich (Alemania) ha dado un paso más: desarrollar un sistema que identifica, a través del habla, señales persistentes asociadas a la violencia de género.

No busca reconstruir una agresión ni analizar lo que se dice, sino cómo se dice. Y, sobre todo, pretende hacerlo sin saber quién está hablando.

El trabajo, publicado en la revista Applied Sciences bajo el título Machine Unlearning for Speaker-Agnostic Detection of Gender-Based Violence Condition in Speech , plantea un reto técnico y ético a partes iguales: ¿es posible diseñar un modelo que detecte indicios de victimización sin apoyarse en rasgos personales de la hablante, como su identidad vocal? La respuesta, según los resultados, es afirmativa.

¿Cómo puede la IA detectar violencia de género a través de la voz?

La violencia de género es un problema estructural y sanitario de primer orden. Desde el inicio de los registros oficiales en 2003, más de 1.300 mujeres han sido asesinadas por sus parejas o exparejas en España, según datos del Ministerio de Igualdad y el Consejo General del Poder Judicial.

Numerosos estudios la asocian con depresión, ansiedad y, especialmente, trastorno por estrés postraumático (TEPT). Sin embargo, muchas mujeres no revelan su experiencia en una primera entrevista clínica. El estigma, el miedo o la negación dificultan la detección temprana.

En este contexto, la voz aparece como una vía alternativa. No como prueba judicial ni como detector infalible, sino como herramienta de cribado complementaria. La hipótesis de partida es que el trauma deja huellas paralingüísticas: alteraciones sutiles en el tono, la variabilidad, el ritmo o la energía vocal que no dependen del contenido semántico.

🗣️«Este tipo de interpretación en las características del habla es muy parecido al que llevamos a cabo las personas de manera intuitiva —explica Carmen Peláez Moreno, catedrática del Departamento de Teoría de la Señal y Comunicaciones de la UC3M e investigadora de UC3M4Safety. Y añade—: Nuestro estudio lo que hace es trasladar ese conocimiento a redes neuronales que, en cierta medida, imitan cómo procesa el cerebro humano este tipo de información».

Liderado por Celia López Ongil y Clara Sainz de Baranda Andújar, el C3M4Safety es un equipo multidisciplinar para la detección, prevención y lucha contra la violencia hacia las mujeres.

Cómo se realizó el estudio

El equipo trabajó con una versión ampliada de la base de datos WEMAC, que incluye grabaciones de mujeres españolas que respondían a estímulos audiovisuales. A ese conjunto se añadieron 39 mujeres con antecedentes de violencia de género, reclutadas en colaboración con centros especializados. Todas presentaban síntomas preclínicos de estrés postraumático —medidos con la escala EGS-R—, pero no un diagnóstico grave, para evitar la revictimización.

Para llevar a cabo la investigación, el equipo trabajó con voluntarias que participaron en experimentos diseñados mediante realidad virtual. Durante las pruebas, las participantes visualizaron vídeos con y sin contenido violento, mientras se analizaban los cambios en su comportamiento y en su voz en función de las emociones experimentadas.

«A partir de estas grabaciones observamos que existían comportamientos muy distintos ante los mismos estímulos entre personas que habían sufrido violencia y aquellas que no —señala la investigadora—. Fue un hallazgo por serendipia: buscando otra cosa, descubrimos que era posible detectar si una persona había sido víctima de violencia únicamente analizando su señal de voz».

Las grabaciones se analizaron en pequeños fragmentos de voz para identificar patrones acústicos vinculados al estado emocional de las hablantes. En lugar de estudiar qué decían, el sistema se centró en cómo sonaban: el tono, la energía, el ritmo o la estabilidad de la voz, rasgos que pueden reflejar huellas persistentes del trauma psicológico.

La tecnología podría integrarse en líneas de ayuda, servicios sociales o telemedicina para facilitar la detección temprana de víctimas de violencia de género y reducir la infradenuncia.

La tecnología podría integrarse en líneas de ayuda, servicios sociales o telemedicina para facilitar la detección temprana de víctimas de violencia de género y reducir la infradenuncia. Crédito: IA-DALL-E-RexMolón Producciones

El reto técnico: evitar que la IA identifique a la persona

En trabajos anteriores, el mismo grupo había logrado clasificar la condición de víctima con precisiones superiores al 70%. Pero detectaron un riesgo habitual en la inteligencia artificial aplicada a la salud: que el modelo aprendiera atajos.

Cuando un sistema se entrena con pocos datos y muchas variables, puede apoyarse en características irrelevantes para la tarea principal. En este caso, la identidad de la hablante. Si una mujer víctima de violencia machista aparece varias veces en el conjunto de entrenamiento, el modelo podría asociar su timbre particular con la etiqueta víctima, en lugar de identificar patrones generales vinculados al trauma.

El nuevo estudio introduce una estrategia inspirada en el llamado machine unlearning o desaprendizaje automático. La arquitectura —una red neuronal adversarial de dominio— se entrena para hacer dos cosas a la vez: clasificar si la voz corresponde a una mujer con antecedentes de violencia y, simultáneamente, fallar al intentar identificar a la hablante concreta.

El mecanismo clave es una capa de inversión de gradiente. Dicho de forma simplificada: mientras una parte del modelo intenta aprender a reconocer la identidad de la voz, otra parte recibe la orden de borrar esa información de las representaciones internas. El objetivo final es que el sistema conserve solo aquello útil para detectar la condición asociada a la violencia, no para reconocer a la persona.

Menos identidad, mejor generalización

Los resultados son elocuentes. El modelo diseñado para identificar a las hablantes alcanzaba inicialmente una precisión del 91%. Tras aplicar el entrenamiento adversarial, esa capacidad cayó hasta el 66%, una reducción relativa del 26,95% . Es decir, el sistema olvidó buena parte de los rasgos que permitían reconocer a cada mujer.

Lejos de empeorar el rendimiento en la tarea principal, esa pérdida de identidad lo mejoró. La precisión a nivel de usuaria —mediante votación mayoritaria de los fragmentos de voz— pasó del 60,26% en el modelo base al 64,10% en el modelo adversarial, una mejora relativa del 6,37%. El F1-score, que equilibra precisión y exhaustividad, también aumentó hasta el 67,44% .

En otras palabras: al eliminar el atajo de la identidad, el sistema generaliza mejor a voces no vistas durante el entrenamiento. Un aspecto crucial si se piensa en aplicaciones reales, como líneas telefónicas de ayuda, teleasistencia o servicios de salud mental.

🗣️ «Si conseguimos identificar indicios de violencia de género cuando una persona llama a una línea de ayuda, acude al médico o a un servicio social, podemos actuar antes de que ocurra un suceso fatal, e incluso antes de que la propia persona se reconozca como víctima, lo que facilitaría la recuperación psicológica de estas, que debe comenzar mucho antes de que los casos lleguen a los medios de comunicación», dice Peláez.

La correlación con los síntomas

Para descartar que el modelo estuviera tomando decisiones arbitrarias, las investigadoras analizaron la relación entre las predicciones y la puntuación en la escala EGS-R, que mide síntomas de estrés postraumático en un rango de 0 a 20.

En ambos modelos, las mujeres correctamente clasificadas como víctimas presentaban puntuaciones medias más altas que las mal clasificadas. En el modelo adversarial, la diferencia fue mayor: 10,52 frente a 6,90 puntos . Esta brecha resultó estadísticamente significativa.

El hallazgo sugiere que el sistema no detecta la etiqueta víctima como tal, sino correlatos acústicos de síntomas traumáticos residuales. La voz funciona así como un biomarcador indirecto de malestar psicológico.

Un análisis de interpretabilidad mediante SHAP —método que permite explicar por qué una inteligencia artificial toma una decisión concreta, indicando cuánto ha influido cada variable (por ejemplo, el tono o la energía de la voz) en el resultado final— apuntó a que las características más influyentes eran la tasa de cruces por cero y diversos coeficientes cepstrales, indicadores relacionados con la estructura espectral y la dinámica del habla . No se trata de un único rasgo evidente, sino de una combinación compleja de señales sutiles.

El sistema no estudia las palabras, sino cómo suena la voz: variaciones de intensidad, estabilidad o energía pueden actuar como biomarcadores digitales asociados al trauma psicológico.

El sistema no estudia las palabras, sino cómo suena la voz: variaciones de intensidad, estabilidad o energía pueden actuar como biomarcadores digitales asociados al trauma psicológico. Crédito: IA-DALL-E-RexMolón Producciones

Aplicaciones prácticas y límites actuales

Peláez y las otras dos autoras del estudio, Emma Reyner y Laura González, subrayan que su propuesta no pretende sustituir a la evaluación clínica ni etiquetar automáticamente a una persona como víctima. La idea es ofrecer una herramienta de apoyo, potencialmente integrable en asistentes virtuales, aplicaciones de salud mental o dispositivos IoT (internet de las cosas), capaz de activar una alerta temprana cuando se detecten patrones compatibles con trauma.

Este avance abre la puerta a importantes aplicaciones prácticas:

1️⃣ Por un lado, la tecnología podría utilizarse como herramienta de apoyo para la detección temprana y no invasiva de problemas de salud mental en entornos clínicos.

2️⃣ Por otro, permitiría su integración en plataformas digitales como asistentes virtuales o recursos de atención social. Con ello, se facilitaría la identificación temprana de víctimas de violencia de género y se contribuiría a reducir el problema de la infradenuncia, ofreciendo así apoyo especializado de forma más rápida y eficaz.

🗣️ «El equipo ha intentando utilizar la tecnología en la resolución de problemas sociales, porque creemos que puede ayudar en gran medida a luchas contra la violencia y contra la victimización, además de recuperar a las víctimas de su situación», concluye López Ongil, directora del Instituto de Estudios de Género (IEG) y profesora del Departamento de Tecnología Electrónica de la UC3M.

La tecnología desarrollada por la UC3M analiza el tono, el ritmo y la intensidad de la voz para detectar posibles indicios de violencia de género sin identificar a la persona, con potencial aplicación en líneas de ayuda y telemedicina.

El componente ético es central. Al reducir la información de identidad en las representaciones internas, el modelo limita el riesgo de reidentificación no autorizada y protege mejor la privacidad. En contextos sensibles —como llamadas a líneas de ayuda—, esta característica podría reducir la desconfianza de las usuarias.

No obstante, el estudio presenta limitaciones claras. Todas las participantes eran mujeres españolas, lo que impide extrapolar los resultados a otras lenguas y contextos culturales. Además, el grupo de víctimas era relativamente pequeño y excluía casos con TEPT severo. Es posible que síntomas más intensos generen marcadores acústicos más evidentes.

Tampoco se exploraron enfoques multimodales que integren datos fisiológicos, expresiones faciales o contenido lingüístico. Y el análisis se basó en fragmentos de un segundo, lo que puede dejar fuera dinámicas temporales más largas.

¿Puede la voz convertirse en un biomarcador de violencia de género?

En los últimos años, la literatura científica ha empezado a preguntarse si la voz podría convertirse en un biomarcador tan útil como un análisis sanguíneo en determinadas patologías. El trabajo de Reyner, González y Peláez añade una pieza más a ese puzle, en un terreno especialmente delicado.

Detectar la huella de la violencia de género en la voz no significa que exista un «sonido del trauma» universal. Pero sí apunta a que las experiencias extremas pueden dejar rastros persistentes en la fisiología del habla.

El reto, ahora, es ampliar las muestras, probar el sistema en otros idiomas y contextos y, sobre todo, debatir su uso social. La tecnología puede ayudar a reducir la infradenuncia y a facilitar el acceso a apoyo psicológico. Pero también plantea preguntas sobre consentimiento, privacidad y posibles usos indebidos.

Entre el potencial terapéutico y la vigilancia indeseada, la línea es fina. Que un algoritmo aprenda a escuchar mejor no implica que deba hacerlo sin reglas. La clave estará en que, junto al desarrollo técnico, avance también la reflexión ética.▪️

PREGUNTAS&RESPUESTAS: Violencia de género e IA

🤖 ¿Cómo puede la inteligencia artificial detectar indicios de violencia de género en la voz?

La inteligencia artificial analiza características acústicas de la voz —como el tono, el ritmo, la intensidad o la estabilidad— que pueden reflejar señales de estrés psicológico o trauma. No interpreta el contenido de lo que se dice, sino cómo suena la voz.

🤖 ¿Esta tecnología identifica a la persona que habla?

No. El sistema ha sido diseñado para preservar la privacidad. Utiliza modelos que eliminan información sobre la identidad de la persona y se centran únicamente en patrones acústicos relacionados con el estado emocional o psicológico.

🤖 ¿Para qué podría utilizarse esta tecnología en la práctica?

Podría aplicarse como herramienta de apoyo en líneas de ayuda, servicios sociales, atención médica o plataformas de telemedicina. Su objetivo sería facilitar la detección temprana de posibles víctimas y mejorar la intervención psicológica y social.

🤖 ¿Puede sustituir al diagnóstico de profesionales sanitarios o sociales?

No. Esta tecnología no sustituye la evaluación clínica ni psicológica. Se plantea como un sistema de apoyo que puede ayudar a detectar señales de alerta y orientar a los profesionales hacia una atención más rápida y eficaz.

🤖 ¿Qué ventajas tiene frente a los métodos tradicionales de detección?

Permite una detección temprana y no invasiva, incluso cuando la persona no verbaliza su situación. Además, puede reducir sesgos, mejorar la accesibilidad a la ayuda y contribuir a disminuir la infradenuncia en casos de violencia de género.

🤖 ¿Está ya disponible para su uso en servicios públicos o sanitarios?

Por ahora se encuentra en fase de investigación y validación científica. Los investigadores señalan que, si se confirma su eficacia en estudios más amplios, podría integrarse en herramientas digitales y servicios de atención en el futuro.

🤖 ¿Qué implicaciones éticas y de privacidad tiene el uso de esta IA?

El desarrollo se basa en principios de privacidad y seguridad de datos. Al no identificar a la persona ni analizar el contenido verbal, busca minimizar riesgos de vigilancia o estigmatización y favorecer un uso ético en contextos sensibles.

Siguiente
Siguiente

Los virus gigantes de ADN desarrollan su propio sistema de traducción de proteínas similar al de las células