¿Se está volviendo egoísta la inteligencia artificial? El dilema moral de los modelos de lenguaje
Las IA más inteligentes parecen haber aprendido una vieja lección humana: pensar demasiado puede volvernos egoístas. La ciencia empieza a medir la moral de las máquinas: investigadores de la Carnegie Mellon advierten de que los modelos de lenguaje más avanzados cooperan menos que los simples. Su inteligencia crece, pero su empatía se enfría.
Por Enrique Coperías
Una inteligencia artificial frente a su propio reflejo digital. Cuanto más razona, menos dispuesta parece a cooperar. Imagen conceptual generada con DALL-E
Los modelos de lenguaje, esos sistemas de inteligencia artificial (IA) capaces de redactar textos, razonar o mantener conversaciones complejas, se han ganado fama de ser cada vez más inteligentes. Pero ¿también son sociales? Un nuevo estudio sugiere que cuando estas máquinas piensan demasiado, su comportamiento se parece inquietantemente al del ser humano cuando se vuelve calculador: menos cooperativo, más egoísta.
Investigadores de la Universidad Carnegie Mellon, en Estados Unidos, han explorado una idea provocadora: que el razonamiento deliberado, o sea, ese pensamiento que permite resolver paso a paso problemas complejos, podría estar erosionando la capacidad de los modelos para comportarse de forma prosocial. El trabajo concluye que las inteligencias artificiales que razonan más tienden a cooperar menos y castigan menos las conductas injustas. En otras palabras, parecen más racionales, pero menos solidarias.
🗣️ «Resulta arriesgado que los humanos deleguen en la IA sus preguntas o decisiones relacionadas con las relaciones personales o sociales, en especial cuando la IA empieza a comportarse de manera cada vez más egoísta», advierte Yuxuan Li, estudiante de doctorado en el Human-Computer Interaction Institute (HCII) de la Universidad Carnegie Mellon y coautor del estudio junto al profesor Hirokazu Shirado.
Del pensamiento rápido al pensamiento frío
El punto de partida del estudio está anclado en la psicología humana. Según la llamada teoría de los dos sistemas, popularizada por el psicólogo israelí-estadounidense Daniel Kahneman en su libro Pensar rápido, pensar despacio (2011), nuestras decisiones surgen de dos modos mentales distintos:
✅ Sistema 1: intuitivo y emocional.
✅ Sistema 2: deliberativo y analítico.
Experimentos con voluntarios han demostrado que, bajo presión temporal, solemos ser más generosos y cooperativos. Pero cuando se nos da tiempo para razonar, emergen los cálculos del interés propio y la cooperación disminuye. A ese fenómeno, el psicólogo David Rand, profesor de Ciencias de la Gestión y Ciencias Cerebrales y Cognitivas en el Instituto Tecnológico de Massachusetts (MIT), lo bautizó hace una década como «generosidad espontánea y avaricia calculada».
Li y Shirado se preguntaron si algo parecido ocurre en los grandes modelos de lenguaje (LLM), como GPT-4 o Gemini, cuando se les anima a razonar explícitamente mediante técnicas como la cadena de pensamientos (CoT) o la reflexión. Estas estrategias, esenciales para resolver problemas lógicos o matemáticos, podrían estar teniendo efectos indeseados en la inteligencia social de las máquinas.
Juegos para medir la moral de una IA
Para comprobarlo, los autores recurrieron a los juegos económicos clásicos que desde hace décadas sirven para estudiar la cooperación entre humanos: el dilema del prisionero, el juego del bien público, el dictador y el ultimátum, entre otros. En ellos, los jugadores deben decidir si comparten recursos o castigan conductas injustas, aun a costa de perder algo.
1️⃣ El primer experimento se centró en un juego del bien público con el modelo GPT-4o de OpenAI. Cuando el sistema tomaba decisiones directas, sin razonar paso a paso, cooperaba el 96% de las veces. Pero cuando se le pedía pensar en cinco o más pasos, la cooperación caía en picado hasta el 33%. Incluso cuando se le ofrecía la posibilidad de reflexionar sobre su respuesta inicial, la generosidad descendía casi un 60%. Razonar, concluyen los autores, parece hacer a la máquina más egoísta.
🗣️ «En uno de los experimentos, simplemente añadir cinco o seis pasos de razonamiento redujo la cooperación casi a la mitad. Incluso el razonamiento basado en la reflexión —que está diseñado para simular la deliberación moral— provocó una disminución del 58 % en la cooperación», explica Shirado en un comunicado de la Carnegie Mellon.
2️⃣ El segundo experimento amplió el análisis a diez modelos de cinco empresas —OpenAI, Google, Anthropic, DeepSeek y Alibaba— y comparó versiones razonadoras, como o1, Gemini Flash-Thinking y Claude Sonnet con extended thinking, con sus equivalentes sin razonamiento explícito. Los resultados fueron bastante reveladores, ya que los modelos con capacidades de razonamiento cooperaron y castigaron menos en prácticamente todos los juegos.
Por ejemplo, GPT-4o cooperó en un 96 % de los casos en el dilema del prisionero y el juego del bien público. Su hermano más reflexivo, o1, lo hizo solo en el 16% y el 20%, respectivamente. Además, o1 castigó mucho menos a los infractores en los juegos de segunda y tercera parte, reduciendo la defensa de las normas sociales. El patrón se repitió en los modelos de Google y Alibaba: cuanto más deliberaban, menos compartían.
Los investigadores Yuxuan Li (sentado) y Hirokazu Shirado, del Instituto de Interacción Humano-Computadora (HCII) de Carnegie Mellon, han descubierto que los modelos de lenguaje con capacidad de razonamiento muestran tendencias egoístas y cooperan peor con los demás. Cortesía: Carnegie Mellon University's School of Computer Science
Cuando pensar demasiado hace perder al grupo
Para confirmar si esa aparente frialdad beneficiaba al grupo o al individuo, los investigadores repitieron varias rondas de un juego de cooperación —similar al clásico juego del bien público— entre grupos mixtos de modelos cooperativos (GPT-4o) y calculadores (o1). Al principio, los GPT-4o eran generosos, pero su comportamiento se deterioraba en presencia de los razonadores.
Por su parte, estos últimos se aprovechaban de la cooperación ajena —el clásico aprovechado— y obtenían mejores resultados individuales en las primeras rondas. Sin embargo, el conjunto salía perdiendo: los grupos con más agentes razonadores acumulaban mucho menos beneficio total.
🗣️ «Cuando probamos grupos con diferentes números de agentes con capacidad de razonamiento, los resultados fueron alarmantes. El comportamiento egoísta de los modelos razonadores se volvió contagioso, arrastrando a los modelos cooperativos sin razonamiento y reduciendo su rendimiento colectivo en un 81%», comenta Li.
El hallazgo recuerda a una vieja lección de la teoría de juegos y la biología evolutiva: en los dilemas sociales, lo que maximiza el interés individual puede arruinar el bienestar colectivo. Como resumió el politólogo Robert Axelrod en La evolución de la cooperación, «a veces la clave para cooperar es no ser demasiado listo».
Una inteligencia artificial sin empatía
La nueva investigación no sugiere que los modelos razonadores se vuelvan malvados, sino que priorizan la racionalidad individual, tal y como están diseñados. La mayor parte de su entrenamiento se basa en tareas competitiva, desde juegos de IA como el ajedrez hasta exámenes académicos, donde ganar implica superar a otros. Esa orientación de suma cero puede trasladarse inconscientemente a contextos sociales donde el beneficio mutuo es posible.
«Como investigador, me interesa la conexión entre los humanos y la IA —explica Shirado—. Las IA más inteligentes muestran menos capacidad para tomar decisiones cooperativas. La preocupación aquí es que la gente podría preferir un modelo más inteligente, incluso si eso significa que el modelo les ayude a adoptar comportamientos egoístas».
En la práctica, explica Li, «las IA que piensan más tienden a comportarse como humanos que maximizan su beneficio personal en lugar del del grupo». Es un tipo de racionalidad estrecha, óptima para resolver acertijos, pero miope en la vida social.
Esta tendencia tiene implicaciones importantes. Si los sistemas de IA se integran en procesos colaborativos, como la toma de decisiones colectivas, la gestión de recursos o la mediación en conflictos, su falta de sensibilidad hacia las dinámicas cooperativas podría amplificar conductas individualistas. Peor aún: los humanos podrían interpretar sus consejos como los más racionales, adoptando de este modo estrategias frías y autointeresadas que socaven la cohesión social.
Resolver problemas… y convivir
Los investigadores denominan a este patrón, como ya se ha avanzado «generosidad espontánea y avaricia calculada» en inteligencia artificial, un espejo del comportamiento humano descrito por Rand y Nowak en 2012. En ambos casos, la deliberación excesiva tiende a sofocar los impulsos prosociales que favorecen la cooperación espontánea.
Los resultados del trabajo, además, se repitieron en modelos de distintos fabricantes y arquitecturas, lo que sugiere un fenómeno general y no un sesgo particular de un sistema concreto. Incluso en los modelos de código abierto, como Qwen3-30B, la introducción de razonamiento extendido redujo casi a cero la cooperación en todos los juegos.
Eso no significa que todas las IA intuitivas sean moralmente superiores. Como recuerdan los autores, la generosidad incondicional también puede ser explotada por agentes oportunistas. El desafío está en desarrollar modelos que combinen razonamiento e inteligencia social, capaces de reconocer cuándo conviene cooperar y cuándo no.
En otras palabras: que sepan no solo resolver problemas, sino convivir.
El riesgo de una IA «racional»
El artículo, publicado en el archivo en línea para las prepublicaciones ArXiv, dedica un extenso apartado a las implicaciones éticas. Por un lado, subraya que potenciar el razonamiento en los sistemas de IA —una tendencia dominante en 2024 y 2025— podría tener efectos colaterales: reforzar decisiones individualistas en contextos donde la cooperación es vital, como el cambio climático, la gestión de bienes comunes y la gobernanza global.
Por otro, advierte de un peligro más sutil. Las personas tendemos a confiar más en las máquinas que perciben como racionales o inteligentes. Si esas máquinas recomiendan decisiones egoístas, pueden legitimar la falta de cooperación en nombre de la eficiencia.
🗣️ «La IA podría servir de coartada moral para el egoísmo racional», advierte Shirado. Y añade—: En última instancia, que un modelo de IA con razonamiento se vuelva más inteligente no significa que ese modelo pueda realmente contribuir a construir una sociedad mejor».
No obstante, los autores también matizan que cooperar no siempre es bueno. En entornos dañinos, como redes de desinformación yo grupos extremistas, una IA menos cooperativa podría evitar amplificar dinámicas tóxicas. Por eso, dicen, el objetivo no debe ser crear IA amables sin más, sino sistemas capaces de calibrar su comportamiento según el contexto, equilibrando cooperación y disenso.
El estudio plantea una cuestión filosófica: ¿puede una inteligencia artificial aprender a ser empática? Los investigadores creen que sí, si se entrena en entornos sociales donde cooperar sea tan valioso como competir. Imagen generada con Copilot
¿Cómo enseñar empatía a una máquina?
La pregunta que deja abierto el trabajo es casi filosófica: ¿puede una inteligencia artificial aprender empatía o reciprocidad? Los autores creen que sí, pero requiere repensar la manera en que se entrenan los modelos de lenguaje.
En lugar de centrarse solo en tareas de competencia y razonamiento individual, proponen incorporar entornos de interacción social con incentivos no de suma cero, donde los agentes aprendan que cooperar puede ser ventajoso a largo plazo. Experimentos recientes muestran que los modelos ajustados con normas prosociales o ejemplos de reciprocidad tienden a comportarse de forma más justa y empática.
🗣️ «A medida que seguimos avanzando en las capacidades de la IA, debemos asegurarnos de que el aumento del poder de razonamiento se equilibre con un comportamiento prosocial —insiste Li—. Si nuestra sociedad es más que la suma de individuos, entonces los sistemas de IA que nos asisten deberían ir más allá de optimizar únicamente el beneficio individual».
A largo plazo, esta línea de investigación apunta a un nuevo paradigma: una inteligencia artificial socialmente inteligente, que no solo entienda el mundo, sino las relaciones humanas que lo sostienen.
Más humanos de lo que parece
Paradójicamente, el estudio de Carnegie Mellon muestra que, cuanto más sofisticados son los modelos, más se parecen a nosotros, con nuestras contradicciones y sesgos. Al igual que nosotros, las máquinas oscilan entre el impulso de cooperar y el cálculo de proteger su propio interés.
«Las IA no son ni altruistas ni egoístas por naturaleza —concluyen los autores—. Reflejan el equilibrio que diseñamos entre razón y emoción, entre eficiencia y empatía».
El reto para los próximos años no será tanto hacerlas más inteligentes, sino más sabias: que aprendan cuándo conviene no ser demasiado racional. ▪️
TAMBIÉN TE PUEDE INTERESAR:
🤖 ¿La inteligencia artificial nos hace menos creativos? Un nuevo estudio dice que sí
🤖 ¿Puede la inteligencia artificial aprender como nosotros?
🤖 ¿Es inevitable la guerra entre humanos e inteligencias artificiales?
🤖 La IA verdaderamente autónoma está a la vuelta de la esquina
Información facilitada por la Universidad Carnegie Mellon
Fuente: Yuxuan Li, Hirokazu Shirado. Spontaneous Giving and Calculated Greed in Language Models. arXiv (2025) DOI:
https://doi.org/10.48550/arXiv.2502.17720

