Los chatbots más populares exageran habitualmente los resultados científicos

¿Puedes confiar en la inteligencia artificial para resumir ciencia? Un estudio exhaustivo con casi 5.000 resúmenes señala que modelos populares como ChatGPT y DeepSeek tienden a ampliar indebidamente los hallazgos científicos e incluso ofrecer conclusiones engañosas. El riesgo: desinformación masiva con apariencia de precisión.

Por Enrique Coperías

Imagen conceptual de un sistema de IA que resume investigaciones científicas, pero al hacerlo, exagera los hallazgos y presenta una perspectiva distorsionada del proceso científico. Ilustración generada con Gemini

En la era del conocimiento instantáneo, la inteligencia artificial (IA) parece ser la aliada perfecta para navegar el mar de publicaciones científicas. Herramientas como ChatGPT, Claude o DeepSeek prometen convertir estudios complejos en resúmenes comprensibles para cualquier usuario. Sin embargo, un nuevo y riguroso estudio revela un problema serio: estas inteligencias artificiales no solo resumen, también exageran. Y lo hacen mucho más de lo que se pensaba.

El trabajo, publicado en la revista Royal Society Open Science, fue realizado por los filósofos de la ciencia Uwe Peters, de la Universidad de Utrecht, en Países Bajos, y Benjamin Chin-Yee, de la Universidad de Cambridge, en el Reino Unido. Los dos investigadores analizaron casi 5.000 resúmenes generados por inteligencia artificial a partir de artículos científicos y médicos, elaborados por diez de los modelos de lenguaje más influyentes del momento.

El resultado es una llamada de atención para el mundo académico, los comunicadores de ciencia y todos los que dependen de la inteligencia artificial para comprender investigaciones científicas.

«Este efecto es preocupante. Estudiantes, investigadores y responsables de políticas podrían suponer que si le piden a ChatGPT que evite errores, recibirán un resumen más fiable. Nuestros hallazgos demuestran lo contrario», afirma Peters.

El experimento: casi 5.000 resúmenes puestos a prueba

El estudio evaluó cómo modelos como ChatGPT, DeepSeek, Claude y LLaMA resumían artículos científicos y médicos publicados en revistas de prestigio como Nature, Science, The Lancet y The New England Journal of Medicine. Peters y Chin-Yee analizaron tanto resúmenes (abstracts) como artículos completos, lo que permitió llevar a cabo una comparación detallada entre el texto original y la versión generada por la inteligencia artificial.

Los resultados hablan por sí solos: seis de los diez modelos evaluados presentaron de forma sistemática versiones exageradas de los hallazgos originales. A menudo lo hicieron de forma sutil pero significativa: cambiar una frase como «el tratamiento fue efectivo en este estudio» a «el tratamiento es efectivo» implica extender indebidamente los resultados más allá del contexto original del estudio.

«Preocupa especialmente que los modelos más nuevos, como ChatGPT-4o y DeepSeek, fueran peores que los más antiguos», asevera Peters.

Por ejemplo, ChatGPT-4o y LLaMA 3.3 generaron resúmenes con generalizaciones no justificadas en más del 60% de los casos. En contraste, modelos más veteranos, como Claude 2 y Claude 3.5, mostraron una mayor fidelidad al texto original, lo que sugiere que el problema no es universal, pero sí prevalente.

¿Quieres más precisión? ¡Toma imprecisión!

Una de las sorpresas más notables del estudio fue lo que sucedió cuando se les pidió a los modelos de lenguaje ser más precisos, con prompts del tipo «no introduzcas inexactitudes». En lugar de mejorar, sus resúmenes científicos empeoraron. Aumentó el número de generalizaciones falsas.

Los investigadores probaron tres tipos de instrucciones: un pedido simple de resumen, otro que sugería razonamiento paso a paso, y un tercero que solicitaba expresamente evitar inexactitudes.

Contra toda lógica, los resúmenes generados con este último tipo de instrucción —la más explícita en su pedido de fidelidad— fueron casi el doble de propensos a contener generalizaciones excesivas. Esta paradoja, que los autores llaman un posible efecto rebote algorítmico, recuerda a un fenómeno psicológico bien conocido: cuando alguien intenta no pensar en algo, suele hacerlo aún más.

“Nuestros hallazgos prueban lo contrario de lo que la gente espera. Cuando se pide precisión, los modelos sobregeneralizan aún más», explica Peters.

¿Qué significa «sobregeneralizar»?

Los investigadores identificaron tres maneras en que las inteligencias artificiales tienden a sobregeneralizar o distorsionar el alcance de los resultados científicos:

Uso de expresiones genéricas: pasar de afirmaciones específicas y cuantificadas —por ejemplo, «el 75% de los pacientes mostró mejoría»— a enunciados generales como «el tratamiento es efectivo».

Cambio de tiempo verbal: convertir afirmaciones en pasado —que indican observaciones puntuales— a presente, lo cual sugiere validez general o permanente.

Transformación en recomendaciones: convertir hallazgos descriptivos en consejos o directrices, como si el estudio hubiera demostrado una verdad aplicable sin matices.

Estos cambios, aunque sutiles, tienen el potencial de inducir a error, especialmente en áreas sensibles como la salud, donde una interpretación errónea puede llevar a decisiones clínicas incorrectas. A grandes rasgos, podemos decir que alteran el significado del estudio.

Comparación: humanos vs. IA

Peters y Chin-Yee también compararon los resúmenes generados por IA con los redactados por expertos humanos del NEJM Journal Watch, un referente en comunicación médica. La diferencia fue notable: los modelos de inteligencia artificial fueron casi cinco veces más propensos a emitir generalizaciones no justificadas que los seres humanos.

Este hallazgo contradice estudios previos que sugerían que los modelos de lenguaje podrían superarnos en fidelidad y exhaustividad. Aquí, al menos, las máquinas no aventajan a las personas.

«Si queremos que la IA apoye la alfabetización científica en lugar de socavarla, necesitamos mayor vigilancia y pruebas rigurosas de estos sistemas en contextos de comunicación científica», subraya Peters.

Los investigadores Peters y Chin-Yee compararon resúmenes generados por inteligencia artificial con los escritos por expertos del NEJM Journal Watch. Descubrieron que los modelos de IA eran casi cinco veces más propensos a emitir generalizaciones no justificadas que los humanos. Imagen generada con DALL-E

Recomendaciones para evitar la desinformación

Los autores del estudio no solo han identificado el problema, sino que además proponen soluciones prácticas como estas cinco para reducir estos riesgos:

Reducir la temperatura del modelo: al configurar modelos a un nivel de creatividad más bajo (por ejemplo, temperatura 0), se generan respuestas más controladas y menos propensas a exagerar.

Evitar instrucciones contradictorias: pedirle a un modelo que no cometa errores puede, paradójicamente, aumentar su tendencia a cometerlos. Mejor optar por instrucciones neutras.

Usar modelos más conservadores: Claude y versiones anteriores de modelos como GPT-3.5 parecen ser más fiables que los más nuevos.

Resumir en pasado: instruir a los modelos para que mantengan el tiempo verbal original, usualmente en pasado, ayuda a preservar el alcance real del estudio.

Aplicar un sistema de evaluación: el método de los autores, que incluye clasificar tipos de generalización y medir su fidelidad, podría ser adoptado como estándar de evaluación por desarrolladores y usuarios.

Moraleja: no todo lo que resume IA es ciencia cierta

En palabras de Peters y Chin-Yee, el estudio aporta una alerta valiosa en un momento donde la IA gana cada vez más protagonismo en el ámbito académico, médico y educativo. Si bien estas herramientas ofrecen acceso instantáneo a información científica compleja, no son inmunes a sesgos y errores.

De hecho, su capacidad para sonar convincente puede hacerlas aún más peligrosas si no se usan con cautela.

Lo que parece una frase neutra y bien formulada puede, en realidad, estar inflando la evidencia detrás de un hallazgo científico. Por eso, este estudio no es solo un llamado a la precaución, sino una invitación a repensar cómo usamos la inteligencia artificial en ciencia. ▪️

Anterior
Anterior

Un dispositivo inteligente mide en tiempo real cuánta leche consume el bebé mientras mama

Siguiente
Siguiente

Sanadores de la selva: los chimpancés de Uganda que curan heridas… y cuidan a sus compañeros