Mind Captioning: la IA que convierte pensamientos en texto
Una nueva técnica de inteligencia artificial logra traducir la actividad cerebral en frases coherentes que describen lo que una persona ve o imagina. El avance, desarrollado en Japón, abre una ventana inédita al lenguaje del pensamiento y plantea fascinantes retos éticos sobre la privacidad mental.
Por Enrique Coperías
Ilustración conceptual del sistema mind captioning, una inteligencia artificial capaz de convertir la actividad cerebral en texto. Los investigadores del NTT Communication Science Laboratories, en Japón, lograron que el modelo generara descripciones detalladas de lo que una persona ve o imagina, abriendo una nueva ventana a la interpretación del pensamiento humano. Imagen generada con DALL-E
Desde su nacimiento, la neurociencia ha perseguido un sueño casi literario: traducir los pensamientos en palabras. Ahora, un grupo de investigadores japoneses ha dado un paso asombroso hacia esa frontera. Su sistema, bautizado como mind captioning —algo así como subtítulos mentales—, logra convertir la actividad cerebral humana en descripciones de texto que reflejan lo que una persona está viendo o incluso recordando.
El trabajo, publicado en la revista Science Advances por el científico Tomoyasu Horikawa, de los NTT Communication Science Laboratories, en Japón, demuestra por primera vez que una inteligencia artificial (IA) puede generar frases coherentes a partir de patrones cerebrales sin necesidad de recurrir al lenguaje hablado. En otras palabras: el sistema no lee la mente, pero sí traduce sus representaciones visuales en lenguaje.
«El modelo predice lo que una persona está mirando con mucho detalle. Esto es difícil de lograr. Es sorprendente que se pueda obtener tanto nivel de detalle”, comenta en la revista Nature Alex Huth, neurocientífico computacional de la Universidad de California en Berkeley, que no participó en el estudio pero que ha trabajado en modelos similares.
Cómo funciona el «mind captioning»: del cerebro al texto
El punto de partida del proyecto de investigación es una pregunta fascinante: ¿cómo convertir las señales del cerebro en lenguaje comprensible? Horikawa y su equipo utilizaron imágenes por resonancia magnética funcional (fMRI) para registrar la actividad cerebral de seis voluntarios japoneses mientras veían miles de pequeños vídeos: escenas cotidianas, paisajes, personas o animales en movimiento...
Después, entrenaron un modelo de inteligencia artificial para reconocer cómo se correspondían esos patrones neuronales con las características semánticas de los textos que describían las escenas. En lugar de intentar traducir directamente la señal cerebral en palabras, algo inabordable por su complejidad en estos momentos, el sistema intermedio transforma la actividad del cerebro en un espacio semántico, una especie de mapa conceptual del significado.
A partir de ahí, otro modelo de lenguaje, similar a los grandes sistemas que alimentan a herramientas como ChatGPT, reconstruye frases que se ajustan de forma progresiva a las características semánticas detectadas. La máquina empieza con un texto vacío y, en un proceso de ensayo y error, sustituye palabras y reorganiza oraciones hasta que la descripción generada se asemeja al contenido mental del participante.
Así, de una nube de datos cerebrales emerge una frase como: «Una persona salta desde un acantilado hacia el agua» o «Dos mujeres se abrazan mientras otras personas sonríen».
«Los intentos previos solo habían identificado palabras clave que describían lo que una persona veía, en lugar del contexto completo, que podría incluir el sujeto de un vídeo y las acciones que ocurren en él —explica Horikawa en Nature. Y añade—: Otros intentos han utilizado modelos de inteligencia artificial capaces de crear por sí mismos estructuras de frases, lo que hace difícil saber si la descripción estaba realmente representada en el cerebro».
Más allá del lenguaje: pensar sin palabras
Uno de los hallazgos más sorprendentes del estudio es que el sistema no depende de la llamada red del lenguaje del cerebro, esto es, las áreas clásicamente asociadas con el habla o la comprensión verbal. Incluso cuando los investigadores eliminaron esa región del análisis, el modelo siguió generando descripciones coherentes.
Esto sugiere que el significado visual y las relaciones entre objetos, acciones y contextos se codifican en otras zonas del encéfalo, como el lóbulo occipital y partes del córtex parietal y frontal, que interpretan la información visual compleja. Dicho de otro modo, el cerebro guarda el sentido de una escena en regiones no lingüísticas, y la inteligencia artificial puede leer esa semántica visual sin necesidad de palabras.
Esa capacidad, subraya el estudio, refuerza la distinción entre pensamiento y lenguaje: el primero puede existir y organizarse de forma estructurada sin depender del segundo. «Nuestros resultados muestran que el contenido mental puede representarse y decodificarse incluso sin involucrar el sistema del lenguaje», escribe Horikawa en su artículo científico.
Recordar, imaginar y ver: el mismo lenguaje del cerebro
El experimento no se limitó a lo que los voluntarios veían. En una segunda fase, se les pidió que recordaran —sin estímulos visuales— algunas de las escenas que habían visto antes. Los resultados fueron casi igual de precisos: el sistema consiguió generar frases que describían con fidelidad las imágenes evocadas mentalmente.
Aunque la exactitud varía entre individuos, algunos participantes alcanzaron un 40% de acierto a la hora de identificar correctamente los vídeos recordados entre un centenar de opciones. Además, las frases producidas mantenían coherencia gramatical y sentido narrativo, incluso cuando la identificación de objetos concretos no era perfecta.
Esto implica que los patrones cerebrales asociados a la imaginación y al recuerdo comparten gran parte de su estructura con los de la percepción visual. En la práctica, el sistema puede traducir tanto lo que una persona mira como lo que visualiza mentalmente.
Una interfaz cerebro-lenguaje para la comunicación
El potencial de esta tecnología es inmenso. Horikawa la concibe como una interfaz entre la mente y el lenguaje, capaz de servir como base para nuevas formas de comunicación. Podría, por ejemplo, permitir que personas con afasia, que han perdido la capacidad de hablar por un daño cerebral, expresen pensamientos complejos a través de texto.
También podría complementar los sistemas de interfaz cerebro-máquina que hoy se basan en el control motor o en señales visuales.
El método, además, abre una vía inédita para estudiar cómo el cerebro humano organiza la información visual en estructuras semánticas: quién hace qué, a quién, dónde y cómo. En los experimentos, cuando los investigadores alteraban el orden de las palabras de las descripciones generadas, la precisión caía en picado.
Eso indica que el cerebro codifica no solo qué elementos componen una escena, sino también sus relaciones: «el pájaro se come a la serpiente» no es lo mismo que “«a serpiente se come al pájaro», y el sistema lo distingue.
El lenguaje del pensamiento es universal
Un aspecto especialmente revelador del estudio, según Horikawa, es que los seis participantes eran hablantes nativos de japonés, pero las frases que el sistema generaba estaban en inglés. El modelo no traduce literalmente los pensamientos, sino que interpreta el significado semántico universal que subyace a ellos.
Por eso, aunque el idioma de salida sea distinto al del sujeto, el contenido mantiene coherencia: lo que se decodifica no es la palabra, sino el concepto.
Esa independencia del lenguaje abre la posibilidad de aplicar la técnica en individuos no verbales, como bebés o animales, o en situaciones donde el lenguaje está ausente o dañado. También sugiere que el cerebro maneja representaciones conceptuales que trascienden las diferencias idiomáticas.
Cómo aprende la IA a entender el cerebro humano
Para lograr esta precisión, el equipo desarrolló un sistema de dos etapas:
1️⃣ Decodificación lineal: traduce la señal cerebral, medida con fMRI, en características semánticas obtenidas de las descripciones de los vídeos.
2️⃣ Optimización iterativa del texto: usando un modelo de lenguaje, como el RoBERTa, el algoritmo genera y mejora frases hasta que sus características coinciden con las decodificadas del cerebro.
El proceso es, en cierto modo, una conversación entre el cerebro y el modelo de lenguaje. La IA propone descripciones, las compara con la actividad cerebral y ajusta las palabras para aproximarse cada vez más al significado implícito en las señales neuronales. Tras unas cien iteraciones, el resultado suele ser una frase gramatical y coherente.
A diferencia de otros intentos previos, este sistema no depende de bases de datos preexistentes ni de modelos que rellenen huecos con información estadística ajena al cerebro. La descripción final se construye directamente a partir de los patrones neuronales.
La resonancia magnética funcional (fMRI) permite explorar la actividad cerebral de forma no invasiva. Gracias a esta técnica, el sistema mind captioning ha podido traducir los patrones neuronales en frases que describen lo que una persona ve o imagina, según el estudio publicado en Science Advances. Cortesía: Nature
Lo que el cerebro muestra cuando piensa
Los mapas de activación cerebral revelaron que distintas zonas aportan distintos niveles de información:
✅ Las áreas visuales inferiores, como la corteza occipital, responden mejor a rasgos físicos, como formas, colores y movimiento.
✅ Las regiones superiores y parietales integran los elementos en significados más abstractos: quién interactúa con quién, qué acción se realiza, cuál es la relación espacial entre objetos.
El sistema de mind captioning aprovecha precisamente esa jerarquía. Los modelos semánticos extraen patrones de alto nivel que permiten descifrar no solo qué se ve, sino qué ocurre. Y al hacerlo, la IA traza un puente entre las imágenes mentales y el lenguaje, algo que hasta ahora solo el ser humano podía hacer de forma natural.
Privacidad mental y ética de la neurotecnología
Como toda tecnología que se adentra en el territorio de la mente, el mind captioning plantea interrogantes éticos inevitables. Si puede generar texto a partir de la actividad cerebral, ¿qué pasará cuando esas técnicas sean más precisas y rápidas? Horikawa advierte del riesgo de violaciones de la privacidad mental: la posibilidad de que se infieran pensamientos que una persona no ha decidido comunicar.
Por ahora, el proceso requiere equipos costosos, largas sesiones de resonancia magnética y la cooperación activa del sujeto. Pero el avance de las técnicas de alineación cerebral entre individuos podría reducir esas barreras. «Será esencial establecer marcos éticos claros que garanticen el consentimiento informado y la protección de la intimidad mental», subraya el autor.
Estos dilemas también preocupan a Huth, que en 2023 desarrolló un modelo similar capaz de decodificar lenguaje a partir de registros cerebrales no invasivos: «estos hallazgos plantean preocupaciones sobre la privacidad mental, a medida que los investigadores se acercan a revelar pensamientos, emociones y estados de salud íntimos que, en teoría, podrían usarse para la vigilancia, la manipulación o la discriminación».
Aun así, él mismo aclara que las técnicas actuales siguen lejos de poder leer la mente sin permiso: “«Nadie ha demostrado que se pueda hacer eso, todavía».
El futuro: dar voz al pensamiento
La investigación de Horikawa no pretende leer la mente en el sentido popular del término, sino construir una interfaz cerebro-ordenador que permita interpretar el contenido mental de forma comprensible. El propio autor insiste en que los textos generados no son una transcripción literal de los pensamientos, sino una traducción filtrada por modelos de lenguaje y los datos disponibles.
Aun así, el avance es monumental. En apenas una década, los decodificadores neuronales han pasado de identificar imágenes simples a producir descripciones completas de escenas y recuerdos. Y con el ritmo vertiginoso de los modelos de lenguaje de gran escala —cada vez más afinados y cercanos a los patrones cerebrales humanos—, el salto entre lo que pensamos y lo que las máquinas pueden expresar podría acortarse aún más.
El mind captioning no descifra la mente, pero sí empieza a darle voz. Una voz hecha de algoritmos, resonancias y palabras, capaz de narrar, con un asombroso parecido al pensamiento, lo que ocurre dentro de nuestra cabeza.▪️
Fuente: Tomoyasu Horikawa. Mind captioning: Evolving descriptive text of mental content from human brain activity. Science Advances (2025). DOI:10.1126/sciadv.adw1464

