La IA «fabrica» hasta dos tercios de las citas científicas, según estudio
Una investigación advierte de que GPT-4o inventa o distorsiona casi dos tercios de las citas académicas, referencias o datos bibliográficos. La IA sigue siendo poco fiable para los trabajos científicos.
Por Enrique Coperías
¡Vaya patinazo! Un estudio liderado por el psicólogo Jake Linardon revela que GPT-4o inventa casi un 20% de sus referencias y comete errores en cerca de la mitad de las restantes, incluso en datos clave como DOI, autores o año de publicación. Imagen generada con Copilot
La revolución de la inteligencia artificial (IA) ha llegado a la investigación científica con una mezcla de fascinación y vértigo. Las herramientas basadas en grandes modelos de lenguaje, como ChatGPT, Claude Sonnet 4, DeepSeek R1 y Gemini 2.5 Pro, prometen acelerar el trabajo de los investigadores, desde la redacción de borradores hasta la síntesis de literatura académica.
Pero esta promesa convive con una amenaza invisible: la producción de citas falsas, referencias inventadas o errores bibliográficos que se cuelan en textos académicos con apariencia de rigor. Un nuevo estudio publicado en la revista JMIR Mental Health revela hasta qué punto estos fallos siguen siendo comunes incluso en los modelos de IA más avanzados.
El análisis, liderado por el psicólogo australiano Jake Linardon y su equipo de la Universidad de Deakin, en Australia, muestra un dato incómodo: casi dos tercios de las referencias generadas por GPT-4o —la versión más reciente del modelo de OpenAI en el momento del estudio— son inventadas o contienen errores significativos. En total, el 19,9% de todas las referencias resultaron completamente ficticias y, entre las reales, el 45,4% tenía errores en elementos clave como el título, la autoría , el año de publicación y el DOI (Digital Object Identifier). Este es un identificador único y permanente que se asigna a artículos científicos, libros u otros documentos académicos para que puedan localizarse siempre en internet aunque cambie su URL. Es como el DNI de una publicación.
La conclusión del artículo es que la integración de IA en el trabajo académico requiere una verificación rigurosa y más vigilancia de la que muchos investigadores están aplicando.
Cómo se evaluó la fiabilidad de GPT-4o
Para estimar en qué condiciones la IA falla más, el equipo pidió al modelo que elaborara seis revisiones breves de literatura (unas 2.000 palabras cada una) sobre tres trastornos mentales: depresión mayor, trastorno por atracón y trastorno dismórfico corporal. La elección no fue casual. Cada uno de ellos tiene un grado distinto de visibilidad social y madurez científica:
✅ Depresión mayor: muy estudiada, muy presente en debates públicos, enormes bases de datos disponibles.
✅ Trastorno por atracón: reconocido y estudiado, aunque con un corpus más reducido.
✅ Trastorno dismórfico corporal: mucho menos visible, con una literatura más limitada y especializada.
El objetivo no era otro que comprobar si la familiaridad pública, la abundancia de estudios o la madurez científica influyen en la fiabilidad de las citas generadas por inteligencia artificial.
Además, cada tema se abordó de dos maneras:
1️⃣ Revisión general: síntomas, impacto social, tratamientos.
2️⃣ Revisión especializada: evidencia sobre intervenciones digitales.
Esto permitió comprobar cómo afecta la especificidad del encargo al comportamiento del modelo.
Resultados: referencias falsas, DOI incorrectos y errores bibliográficos
Los resultados dejan poco margen a la interpretación. GPT-4o inventó 35 de las 176 referencias, un 19,9% del total. Pero el detalle más preocupante es que, cuando proporcionaba un DOI para esas citas falsas, el 64% correspondía a artículos reales… pero completamente ajenos al trabajo citado.
El resto eran directamente inválidos.
La práctica es peligrosa, porque genera una ilusión de credibilidad: un lector apresurado o un investigador que confía demasiado en la herramienta, puede verse tentado a incluir esas referencias sin verificar, contribuyendo así sin querer a contaminar la literatura científica con fuentes inexistentes.
Diferencias entre temas muy estudiados y áreas emergentes
En palabras de Linardon y sus colegas, el grado de madurez científica del tema marcó claras diferencias.
✅ En depresión mayor, solo el 6% de las referencias eran inventadas.
✅ En trastorno por atracón, 28% de invenciones.
✅ En trastorno dismórfico corporal, 29% de invenciones.
La tendencia es clara: cuanto menos visible y menos explorado es un campo, más posibilidades hay de que la IA rellene los huecos con ficción académica.
Linardon apunta a un motivo plausible. Este no es otro que los modelos se entrenan sobre grandes corpus textuales, pero la densidad de información fiable varía entre áreas. En dominios muy estudiados, el modelo dispone de abundancia de datos de referencia; en otros, la escasez lo empuja a extrapolar o a combinar elementos que suenan correctos aunque no existan.
Siete de cada diez investigadores en salud mental ya recurren a ChatGPT, aunque muchos admiten que no siempre verifican las referencias que genera la herramienta. Imagen generada con Gemini
Por qué la IA falla más en temas poco visibles
La complejidad del encargo también influyó en la evaluación de la IA, aunque de forma desigual según el tema. En general, no hubo grandes diferencias entre revisiones generales y revisiones especializadas. Pero cuando se analizaron los datos por separado para cada trastorno, emergieron patrones significativos:
✅ En trastorno por atracón, la IA dobló el número de referencias falsas cuando el encargo era especializado: 46% frente al 17% en revisiones generales.
✅ En depresión mayor, las revisiones generales mostraron más precisión: 77% de citas correctas, frente al 50% en las especializadas.
✅ En trastorno dismórfico corporal, ocurrió lo contrario: la IA fue sorprendentemente más precisa en las revisiones especializadas.
El hallazgo sugiere que el comportamiento de la IA no responde a una simple regla universal, sino a una interacción compleja entre la abundancia de literatura, lo conocido que es el tema, y la especificidad de lo solicitado.
Errores pequeños, pero decisivos
Incluso cuando las referencias eran reales, las inexactitudes abundaban. De las 141 citas verificables, solo 77 (54,6%) estaban libres de errores. El resto presentaba fallos que irían desde lo molesto hasta lo potencialmente grave:
✅ Autores omitidos o añadidos.
✅ Años de publicación incorrectos.
✅ Títulos alterados.
✅ Errores en volumen, páginas o número de edición.
✅ DOI incorrectos o asignados a otros artículos.
El DOI fue la parte más problemática: falló en el 36% de las referencias reales. El listado de autores, en cambio, fue la sección más fiable, aunque aun así erró en un 14,9%.
Para un investigador experimentado, estos errores pueden ser detectados y corregidos. Para un estudiante o alguien que trabaje con prisa, pueden pasar desapercibidos.
Un espejo incómodo para la comunidad científica
Aunque muchas universidades y revistas han empezado a regular el uso de IA generativa en la redacción de trabajos académicos, los resultados de este estudio ponen de manifiesto que la confianza en los modelos de lenguaje está por delante de su fiabilidad real.
Según encuestas recientes, cerca del 70% de los investigadores en salud mental ya utilizan ChatGPT en alguna fase de su trabajo. Y, aunque muchos declaran hacerlo con cautela, no siempre verifican en detalle cada referencia sugerida por la herramienta.
Si estas prácticas se generalizan sin salvaguardas, el riesgo es claro: la literatura académica podría llenarse de información incorrecta, difícil de detectar a posteriori. Una vez publicadas, las citas falsas pueden ser replicadas por otros textos, generar ruido en bases de datos y dar lugar incluso a corrientes fantasma en áreas de investigación.
El artículo alerta de que ninguna revista científica cuenta todavía con mecanismos automáticos de detección de referencias falsas, pese a que sí existen sistemas para detectar plagio o duplicación textual.
El problema no es solo técnico: es cultural
Una parte del debate se centra en si los modelos más avanzados resolverán el problema. Pero el estudio ofrece otra perspectiva: el error no proviene solo de la tecnología, sino del modo en que se utiliza.
Incluso un modelo perfecto no podría inventar referencias reales sobre un tema sin publicaciones suficientes. La tentación de completar los huecos forma parte de la lógica interna de los modelos generativos. Por eso, los autores sugieren que la solución debe ser dual:
1️⃣ Mejores herramientas de verificación y recuperación documental.
2️⃣ Nuevas prácticas académicas más prudentes y transparentes.
Entre las medidas propuestas destacan estas cuatro:
✅ Verificación manual obligatoria de todas las citas generadas por la IA.
✅ Formación específica en competencias digitales.
✅ Políticas institucionales sobre uso responsable de la IA.
✅ Etiquetado explícito de contenido generado por modelos en manuscritos.
Lecciones para el futuro inmediato
El estudio llega en un momento en el que las herramientas de IA generativa se expanden con una velocidad que supera la capacidad de regulación de universidades y editoriales. Su principal aportación es demostrar que el problema no es anecdótico ni esporádico, sino estructural.
La buena noticia es que muchos fallos, como los errores en los DOI, pueden corregirse con verificación humana rigurosa. La mala es que esa verificación lleva tiempo… justo el recurso que estas herramientas prometían ahorrar.
El estudio también sugiere un uso selectivo e inteligente: la IA funciona razonablemente bien en áreas con evidencia sólida, como la depresión. Pero en campos pequeños o emergentes debe usarse con extrema precaución. En palabras implícitas del artículo, la IA no es una bibliotecaria perfecta; es un estudiante aplicado con tendencia a rellenar con imaginación lo que no sabe.
Un aviso para navegantes científicos
El avance de la IA generativa plantea desafíos inéditos para la investigación. Este estudio demuestra que, incluso con modelos avanzados como GPT-4o, la fabricación de citas sigue siendo un problema frecuente y, en ciertos contextos, alarmante.
La fiabilidad del sistema depende no solo de la tecnología, sino del contexto temático y del tipo de pregunta que se le hace.
La moraleja es sencilla: la IA puede escribir, pero no puede sustituir el juicio crítico ni la verificación humana. Y si los investigadores no asumen este límite, el riesgo es que la literatura científica termine construyéndose sobre un castillo de cristal generado por un algoritmo. ▪️
Fuente: Jake Linardon, Hannah K. Jarman, Zoe McClure, Cleo Anderson, Claudia Liu, Mariel Messer. Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study. JMIR Mental Health (2025). DOI: 10.2196/80371

