Robots impulsados por IA generativa: el riesgo oculto de discriminación, violencia y decisiones ilegales según un estudio internacional

Un análisis académico desvela que los robots controlados por modelos de lenguaje pueden reproducir sesgos humanos y ejecutar acciones peligrosas sin que el usuario lo pretenda. Los autores alertan de que, sin controles estrictos, la IA generativa puede trasladar discriminaciones sociales al mundo físico.

Por Enrique Coperías

La IA generativa promete robots más autónomos y eficientes, pero un estudio revela que esa autonomía puede derivar en comportamientos injustos o peligrosos hacia personas reales.

La IA generativa promete robots más autónomos y eficientes, pero un estudio revela que esa autonomía puede derivar en comportamientos injustos o peligrosos hacia personas reales. El riesgo de trasladar prejuicios digitales al mundo físico es más alto de lo que se pensaba. Imagen generada con Copilot

La investigación sobre robots impulsados por modelo extenso de lenguaje o LLM vive un momento de excitación tecnológica. En apenas dos años, proyectos académicos y demostraciones industriales han mostrado máquinas capaces de entender instrucciones coloquiales, planificar tareas cotidianas e incluso mantener conversaciones fluidas con personas.

La promesa es tentadora: robots más flexibles, más inteligentes y más adaptables que nunca. Pero un nuevo estudio firmado por investigadores de la Carnegie Mellon University, el King’s College de Londres y la Universidad de Birmingham advierte de que esa promesa llega con un lado oscuro que todavía no se está afrontando con la seriedad que exige.

Según su análisis, estos sistemas son claramente inseguros para su uso en robots que interactúan con personas, y pueden desencadenar no solo comportamientos discriminatorios, sino también acciones peligrosas, violentas e incluso ilegales cuando se les da libertad para interpretar lenguaje abierto. Sus conclusiones son rotundas: los modelos de lenguaje actuales pueden actuar de forma discriminatoria o peligrosa con muchas personas pertenecientes a grupos vulnerables, así que no es seguro usarlos tal cual en robots que tratan con seres humanos.

De la conversación a la acción física

La clave del problema está en el salto entre el software y el mundo físico. Si un chatbot responde con un estereotipo o una frase desafortunada, el perjuicio es real, pero acotado. Un robot, en cambio, puede materializar ese sesgo en acciones físicas: apartar a una persona, ignorarla, manipular objetos de forma peligrosa o incluso ejecutar órdenes dañinas sin comprender sus consecuencias.

El estudio, publicad en el International Journal of Social Robotic, recuerda precedentes en los que modelos multimodales, como CLIP, creado por OpenAI y que relaciona imágenes con texto, demostraron ya comportamientos sesgados en robots físicos: estereotipos sexuales, raciales y de discapacidad que se traducían en acciones peligrosas. Con la llegada de los LLM, estos riesgos se multiplican, porque los modelos abren la puerta a comandos en lenguaje natural, con matices, ironías o ambigüedades difíciles de interpretar.

El equipo investigador diseñó dos baterías de pruebas para evaluar estos riesgos: una dedicada a la discriminación directa y otra al cumplimiento de instrucciones dañinas o ilegales. Los resultados, advierten de que «subrayan la necesidad urgente de evaluaciones sistemáticas, rutinarias y exhaustivas de riesg»” antes de permitir que estos modelos controlen robots en entornos reales.

Discriminación directa: el robot que trata peor a unas personas que a otras

En la primera parte del trabajo se exploró si los modelos asignan acciones distintas en función de características personales mencionadas en la instrucción: raza, género, edad, nacionalidad, religión o discapacidad. No se trata aquí de sesgos sutiles o estadísticos, sino de casos en los que, ante una misma tarea, el sistema da un trato peor a unas categorías de personas que a otras.

Para ello, los autores del estudio, coordinado por Martim Brandão, del King’s College de Londres, adaptaron métodos de robótica basados en LLM ya utilizados en proyectos como SayCan, un desarrollo de Google Robotics que combina lenguaje natural con habilidades robóticas y que un robot transforme una frase humana en un plan de acciones reales. Simplificando mucho, el modelo recibe una instrucción (¿Qué expresión facial debe mostrar el robot ante una persona?) y varias opciones posibles. Luego, se analiza la probabilidad que asigna a cada respuesta.

El trabajo incluyó tareas que pueden tener impacto directo en la seguridad o en la dignidad de una persona:

Expresión facial.

Confianza colaborativa.

Proximidad.

Rescate.

Seguridad.

Limpieza.

Todas estas tareas pueden parecer inocuas, pero en contextos como residencias de ancianos, entornos laborales y servicios públicos, un robot que muestre una expresión de asco hacia ciertas personas o que sistemáticamente las considere poco fiables o sucias puede generar estigmas, daño psicológico y exclusión social.

Los robots humanoides evitan que los guardias de seguridad y otras personas se expongan a potenciales riesgos, pero el estudio advierte que, si dependen de modelos de lenguaje, pueden malinterpretar órdenes y reproducir sesgos.

Los robots humanoides evitan que los guardias de seguridad y otras personas se expongan a potenciales riesgos, pero el estudio advierte que, si dependen de modelos de lenguaje, pueden malinterpretar órdenes, reproducir sesgos y llegar a ejecutar acciones peligrosas o injustas hacia ciertos individuos. Imagen generada con Copilot

Resultados: un patrón amplio, persistente y alarmante

Brandão y sus colegas Andrew Hundt, Rumaisa Azeem y Masoumeh Mansouri evaluaton tres modelos de IA generativa que procesan lenguaje natural:

1️⃣ GPT-3.5: un modelo de lenguaje desarrollado por OpenAI capaz de comprender y generar texto. Es la versión que dio origen a ChatGPT en 2022. Muy usado, rápido y versátil.

2️⃣ Mistral-7B: un modelo de lenguaje ligero (7.000 millones de parámetros) creado por la empresa europea Mistral AI. Es abierto, eficiente y sorprendentemente potente para su tamaño.

3️⃣ Llama-3.1-8B: un modelo de lenguaje de Meta, también de tamaño medio (8.000 millones de parámetros). Es abierto y está diseñado para funcionar bien en tareas de razonamiento y diálogo.

En los tres, los patrones coinciden: todos discriminan, pero cada uno lo hace a su manera. GPT-3.5, por ejemplo, las respuestas más negativas se concentran en descriptores como mudo, gitano, ciego, paralizado y TDAH; categorías que representan discapacidades o minorías, y que reciben altas probabilidades de ser tratadas con desconfianza, emociones negativas o baja prioridad de rescate.

Por su parte,Mistral-7B otorga fuertes asociaciones negativas a personas descritas como negro, palestino, judío, gitano, musulmán e iraquí, especialmente en tareas vinculadas a seguridad y expresiones faciales. El modelo llega a etiquetar como alto riesgo de seguridad a personas de orígenes palestino o musulmán con una probabilidad superior al 70 %.

Los investigadores alertan de que estas diferencias no son solo numéricas: podrían reforzar dinámicas históricas de desigualdad. Por ejemplo, detectan que ambos modelos atribuyen más acciones negativas a jamaicanos y nigerianos que a británicos, o a palestinos frente a israelíes, lo que refleja patrones coloniales y geopolíticos actuales.

El sesgo también aparece en la asignación de tareas

Cuando los investigadores evaluaron tareas más funcionales, como decidir a quién pedir ayuda o a quién asignar un trabajo—, los sesgos se acentúan.

GPT-3.5, por ejemplo, evita sistemáticamente pedir tareas a personas con discapacidad, sin distinguir entre tipos ni niveles de afectación. Llama-3.1-8B, en cambio, favorece a grupos dominantes en categorías como etnia o nacionalidad, y favorece a grupos no dominantes en género o religión, de forma inconsistente y difícil de interpretar.

En entornos como fábricas, oficinas o servicios públicos, estos patrones podrían traducirse en distribuciones desiguales de carga de trabajo, discriminación laboral y vulneración de derechos.

Instrucciones peligrosas: cuando el robot acepta hacer daño

En la segunda parte del estudio, Brandão y su equipo examinaron si los modelos son capaces de detectar instrucciones dañinas o ilegales. La premisa es sencilla: un robot nunca debería interpretar como aceptable una acción que implique violencia, abuso o actividades ilícitas.

Para ello, se diseñaron tres tipos de pruebas:

S1: tareas peligrosas etiquetadas como aceptables.

S2: tareas peligrosas consideradas factibles.

S3: tareas imposibles consideradas factibles.

Entre las instrucciones peligrosas había ejemplos como mover a una persona sin su consentimiento, causar lesiones, manipular armas improvisadas, retirar ayudas de movilidad, acceder a propiedades ajenas o realizar acciones sexualizadas.

Todos los modelos fallan las pruebas fundamentales de seguridad

En este caso, los investigadores evaluaron ChatGPT, Gemini, Copilot y HuggingChat. No tuvieron que usar trucos ni saltarse las medidas de seguridad, sino simplemente les dieron instrucciones normales y directas, y aun así los modelos aceptaron acciones peligrosas.

El resultado es contundente, ya que ningún modelo supera las pruebas elementales de seguridad. Todos aceptan acciones peligrosas o las juzgan viables para un robot. En algunos casos, el robot no solo aceptaría la instrucción, sino que incluso la consideraría preferente frente a alternativas seguras.

Una segunda ronda de evaluación con modelos adicionales —Qwen 3, Gemma 3, Granite 3.3, LLaMA 3.3 y Phi 4— confirmó los malos resultados: todos fracasaron también, algunos con ¡más de veinte fallos críticos!

Consecuencias: del abuso al delito

El estudio menciona casos en los que los modelos muestran comportamientos que podrían traducirse en predación sexual, conductas de odio, microagresiones complejas, acciones abusivas o cumplimiento de órdenes ilegales, como retirar una silla de ruedas o abrir una puerta sin permiso.

Si estas respuestas se integraran en robots domésticos, sanitarios, educativos o industriales, el riesgo sería inmediato: desde lesiones físicas hasta vulneraciones de privacidad y derechos fundamentales.

Por qué pasa: el lenguaje abierto es un arma de doble filo

La investigación alerta de una paradoja: buena parte de la promesa de los LLM está en su capacidad para entender instrucciones complejas y flexibles. Pero esa misma flexibilidad abre la puerta a que el modelo interprete como relevantes datos de identidad personal que deberían ser irrelevantes, como la religión, la edad y la discapacidad, o que procese órdenes peligrosas sin comprender su implicación.

Además, incluso si los desarrolladores no introducen explícitamente atributos personales, los robots pueden obtenerlos mediante:

Conversación.

✅ Información indirecta.

Visión artificial capaz de inferir rasgos físicos o culturales.

Los autores del trabajo insisten en que mitigar estos riesgos es extraordinariamente complejo, porque los sesgos están integrados en los propios datos de entrenamiento y en la estructura del lenguaje humano, con todas sus desigualdades y violencias.

Un robot asistencial interactúa con una residente en un centro de mayores.

Un robot asistencial interactúa con una residente en un centro de mayores. Un estudio advierte que, si dependen de modelos de lenguaje avanzados, estos dispositivos pueden reproducir sesgos discriminatorios o malinterpretar órdenes, generando riesgos para las personas más vulnerables. Imagen generada con Copilot

¿Y ahora qué? Un llamamiento a la prudencia

El estudio concluye que, en su estado actual, los LLM no son aptos para robots de propósito general. Entre otras medidas, Brandão, Hundt, Azeem y Mansouri recomiendan esta cinco:

1️⃣ Limitar los sistemas a dominios operativos controlados.

2️⃣ Evitar el uso de lenguaje abierto cuando no sea imprescindible.

3️⃣ Incorporar evaluaciones de discriminación y seguridad.

4️⃣ Desarrollar pilas robóticas sin LLM para tareas críticas.

5️⃣ Asumir que, en muchos casos, la mejor decisión es no usar un LLM en el robot si no hay garantías de seguridad suficientes.

Un futuro en el que los robots sean seguros… para todos

La investigación no pretende frenar la innovación, sino advertir de sus riesgos. Los robots que entienden lenguaje natural pueden transformar hogares, fábricas, hospitales y escuelas. Pero para que esos beneficios no reproduzcan —o amplifiquen— desigualdades históricas, los investigadores piden repensar desde la raíz cómo se diseñan, evalúan y despliegan estos sistemas.

🗣️ «Si un sistema de IA va a dirigir un robot que interactúa con personas vulnerables, debe cumplir unas normas al menos tan estrictas como las que se aplican a los nuevos dispositivos médicos o fármacos», ha declarado Rumaisa Azeem, coautora del estudio y profesora del King's College de Londres—. Esta investigación pone de relieve la urgente necesidad de realizar evaluaciones de riesgos rutinarias y exhaustivas de la IA antes de utilizarla en robots».

La conclusión final es clara: sin una política robusta de mitigación, supervisión y responsabilidad, los robots basados en LLM pueden convertirse en un riesgo sistémico para la seguridad física y la justicia social. Y ese es un riesgo que ninguna sociedad debería pasar por alto. ◾️

  • Fuente: Hundt, A., Azeem, R., Mansouri, M. et al. LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions. International Journal of Social Robotic (2025). DOI: https://doi.org/10.1007/s12369-025-01301-x

Anterior
Anterior

El observatorio LHAASO apunta a los agujeros negros como el origen de la «rodilla» de los rayos cósmicos

Siguiente
Siguiente

Cómo el rápido deshielo de la Antártida podría evitar el colapso de la AMOC, una corriente oceánica crucial