Un modelo de inteligencia artificial aprende a leer el ADN como si fuera un idioma y reconstruye nuestro pasado evolutivo
Un nuevo modelo de IA inspirado en ChatGPT ha aprendido a interpretar el ADN como si fuera un lenguaje y ya es capaz de reconstruir la historia evolutiva de humanos, mosquitos y otras especies en cuestión de minutos. El avance abre una nueva era para la genética de poblaciones, la investigación biomédica y el estudio de la evolución.
Por Enrique Coperías, periodista científico
El nuevo sistema de inteligencia artificial cxt permite analizar enormes bases de datos genéticos en minutos y detectar señales evolutivas asociadas a adaptación humana, resistencia a insecticidas y propagación de enfermedades como la malaria. Crédito: IA-DALL-E-Rexmolón Produciones
La genética de poblaciones lleva décadas intentando resolver un rompecabezas gigantesco: reconstruir la historia de la vida a partir de las pequeñas mutaciones que se acumulan en el ADN. Cada genoma humano es, en cierto modo, un archivo fósil comprimido. En sus secuencias quedan rastros de migraciones, epidemias, cuellos de botella evolutivos, mezclas entre poblaciones y adaptaciones al entorno. El problema es que esos rastros aparecen fragmentados, incompletos y mezclados entre sí.
Ahora, un grupo internacional de investigadores ha desarrollado un sistema de inteligencia artificial (IA) capaz de interpretar esas señales genéticas usando una estrategia inspirada en los grandes modelos lingüísticos (LLM, por sus siglas en inglés), la misma tecnología que hay detrás de los chatbots conversacionales. El trabajo, publicado en la revista PNAS, presenta cxt, el primer modelo de lenguaje diseñado específicamente para la genética de poblaciones.
La idea central del proyecto resulta tan sencilla de formular como ambiciosa en sus implicaciones: tratar la evolución biológica como un lenguaje. Igual que un modelo como ChatGPT aprende relaciones estadísticas entre palabras y frases para predecir qué término viene después en una conversación, cxt aprende a predecir eventos evolutivos ocultos a partir de patrones de mutaciones distribuidos a lo largo del genoma.
➡️ «Replanteamos la inferencia de tiempos de coalescencia como un problema de traducción entre dos lenguajes biológicos», escriben los autores del estudio. Uno de esos lenguajes es visible: las mutaciones presentes en el ADN. El otro permanece oculto: la historia genealógica completa que generó esas mutaciones a lo largo de miles o millones de años.
El árbol genealógico invisible de la vida
Para entender la relevancia del avance hay que retroceder varias décadas en el tiempo. Desde principios de los años ochenta, los genetistas usan modelos matemáticos llamados coalescentes para reconstruir la historia de las poblaciones. La idea consiste en seguir las líneas genéticas hacia atrás en el tiempo hasta encontrar ancestros comunes.
Si dos personas comparten una variante genética determinada, es porque esa variante apareció en algún ancestro compartido. Cuanto más similares son dos secuencias de ADN, más reciente suele ser ese ancestro común. El problema es que la recombinacióngenética, esto es, el intercambio de fragmentos de ADN durante la reproducción, rompe continuamente las señales históricas.
El resultado es una estructura extremadamente compleja llamada ARG, siglas en inglés de grafo de recombinación ancestral. Se trata de una especie de árbol genealógico multidimensional que cambia continuamente a lo largo del genoma. Reconstruirlo es uno de los grandes desafíos de la genética moderna.
Los métodos tradicionales para hacerlo son muy potentes, pero también lentos y rígidos. Funcionan bien cuando las condiciones evolutivas son relativamente simples y conocidas de antemano. Sin embargo, empiezan a fallar cuando aparecen fenómenos más complejos, como mezclas entre poblaciones, selección natural intensa o cambios demográficos abruptos.
Ahí es donde entra la inteligencia artificial.
🗣️ «Los avances en IA generativa y en las arquitecturas que hay detrás tienen un potencial enorme para muchos campos más allá de los chatbots», afirma Andrew Kern, profesor de Biología en la Universidad de Oregón (Estados Unidos), en un comunicado de esta institución. Y añade—: Estamos tomando fortalezas del mundo de la IA y aplicándolas en un contexto completamente distinto que hasta ahora apenas se había explorado».
Del lenguaje humano al lenguaje de la evolución
Los investigadores se inspiraron directamente en la arquitectura GPT-2, uno de los modelos fundacionales de la actual revolución de la IA generativa. Pero, en lugar de entrenarlo con millones de textos de internet, alimentaron el sistema con simulaciones evolutivas generadas por ordenador.
El modelo no aprende gramática ni significado semántico. Aprende otra cosa: las regularidades estadísticas que conectan mutaciones presentes en el ADN con acontecimientos evolutivos pasados.
🗣️ «No podemos repetir la evolución, así que uno de nuestros principales métodos de trabajo consiste en desarrollar simulaciones —explica Kevin Korfmann, autor principal del estudio—. Las simulaciones imitan los procesos evolutivos, y luego usamos esos resultados como datos de entrenamiento para nuestros modelos de aprendizaje profundo».
El sistema trabaja dividiendo el genoma en pequeñas ventanas y analizando patrones de mutaciones en cada una de ellas. A partir de esa información, intenta estimar el momento en que dos secuencias genéticas compartieron por última vez un ancestro común, un parámetro conocido como TMRCA, por sus siglas en inglés.
El modelo utiliza sus propias predicciones anteriores para inferir la siguiente
La novedad es que cxt realiza esta tarea de forma autorregresiva, igual que un chatbot genera texto palabra a palabra. El modelo utiliza sus propias predicciones anteriores para inferir la siguiente parte de la historia evolutiva.
Los autores bautizan esta estrategia como predicción de próxima coalescencia. En términos prácticos, el sistema va reconstruyendo paso a paso la genealogía de un fragmento cromosómico completo.
La analogía con los modelos lingüísticos no es solo conceptual. También aparece en la arquitectura técnica. cxt utiliza transformadores, mecanismos de atención y embeddings posicionales similares a los empleados en IA generativa contemporánea. La diferencia es que, en lugar de procesar palabras, procesa densidades de mutaciones.
La herramienta cxt utiliza una arquitectura inspirada en modelos como ChatGPT para interpretar patrones de mutaciones en el ADN y reconstruir la historia evolutiva de genes y especies a lo largo de millones de años. Crédito: IA-DALL-E-RexMolón Producciones
Millones de ancestros en pocos minutos
Uno de los resultados más llamativos del estudio es la velocidad de cálculo.
Según los investigadores, el sistema puede generar más de un millón de estimaciones de ancestros comunes en cuestión de minutos usando una sola GPU NVIDIA A100. En uno de los ejemplos incluidos en el artículo, el modelo reconstruyó de manera simultánea todas las relaciones genealógicas posibles entre 50 haplotipos humanos en menos de cinco minutos.
Recordemos que un haplotipo humano es un conjunto de variantes genéticas que suelen heredarse juntas de uno de nuestros progenitores. Dicho de forma simple: es como un bloque de ADN compartido que funciona como una huella genética heredada. Los científicos usan los haplotipos para rastrear parentescos, estudiar enfermedades y reconstruir la historia evolutiva de las poblaciones humanas.
El medio centenar de posibles haplotipos so supone una diferencia enorme respecto a muchos métodos clásicos, que pueden requerir horas o incluso días de cálculo.
🗣️ «Comparada con los métodos clásicos de inferencia, esta herramienta de IA no necesita razonar sobre cada mutación de manera individual —dice Korfmann en el comunicado de la Universidad de Oregón. Y continúa—: Simplemente lee los patrones, porque todo el costoso trabajo estadístico ya se hizo previamente durante el entrenamiento, lo que evita ese cuello de botella».
El nuevo enfoque también tiene otra ventaja importante: puede estimar incertidumbres. En vez de producir una única respuesta cerrada, el sistema genera distribuciones probabilísticas. Es decir, ofrece diferentes genealogías posibles y calcula cuáles son más plausibles.
En inteligencia artificial, este punto es crucial. Muchos sistemas generan predicciones extremadamente precisas en apariencia, pero sin ninguna medida fiable sobre su margen de error. cxt intenta resolver ese problema mediante lo que los autores describen como «posteriores bien calibrados».
Cuando la IA descubre la historia humana
Para comprobar si el modelo funcionaba fuera de las simulaciones, el equipo lo aplicó a datos reales del proyecto 1000 Genomes, una de las mayores bases de datos de ADN humano.
El sistema analizó cromosomas de individuos británicos y logró identificar algunos de los episodios evolutivos más conocidos de nuestra especie.
Uno de ellos aparece en el gen LCT, relacionado con la tolerancia a la lactosa en adultos. Hace unos 5.000 o 10.000 años, determinadas poblaciones humanas desarrollaron mutaciones que permitían digerir leche después de la infancia, una ventaja enorme en sociedades ganaderas.
Esa adaptación se expandió muy rápidamente por selección natural y dejó una firma genética característica: regiones del genoma con ancestros comunes muy recientes.
Pues bien, cxt detectó precisamente esa señal. El modelo encontró una caída abrupta en los tiempos de coalescencia alrededor del locus LCT, coherente con un barrido selectivo reciente.
Qué es la «selección balanceada»
El sistema también identificó el fenómeno opuesto en la región HLA, un conjunto de genes implicados en la respuesta inmunitaria.
«Nunca sabes realmente qué va a funcionar cuando estás tomando técnicas de un mundo totalmente diferente y aplicándolas a un problema nuevo —señala Kern—. Pero este ha sido uno de esos casos en los que las cosas funcionaron extraordinariamente bien».
En este caso, la selección natural favorece mantener muchas variantes distintas durante períodos larguísimos de tiempo. El resultado son linajes genéticos extremadamente antiguos.
Algunas de las estimaciones realizadas por cxt apuntan a linajes genéticos con más de diez millones de años de antigüedad, anteriores incluso a la separación evolutiva entre humanos y chimpancés. Se trata de variantes genéticas ancestrales que han sobrevivido durante millones de años en distintas especies gracias a un fenómeno conocido como selección balanceada, uno de los mecanismos evolutivos más extremos y raros conocidos por la ciencia.
Una hembra de Anopheles gambiae, uno de los principales vectores de la malaria en África. El modelo de inteligencia artificial cxt permitió reconstruir la historia evolutiva de genes asociados a resistencia a insecticidas en distintas poblaciones de estos mosquitos. Cortesía: Martin Spitaler & Anna Schnitger / Imperial College London / FILM - Facility for Imaging by Light Microscopy & Laboratory of Immunogenomics / https://www.nikonsmallworld.com/
Mosquitos, insecticidas y adaptación acelerada
El modelo también se puso a prueba con un problema mucho más complejo: la evolución de la resistencia a insecticidas en mosquitosAnopheles, transmisores de la malaria.
Los genomas de estos insectos presentan enormes dificultades para los métodos tradicionales. Tienen poblaciones gigantescas, grandes cantidades de datos perdidos y regiones cromosómicas muy difíciles de interpretar.
Aun así, cxt consiguió reconstruir la historia evolutiva de regiones relacionadas con resistencia a insecticidas en distintas poblaciones africanas.
En particular, el sistema detectó señales muy recientes de selección alrededor del gen Rdl, asociado a resistencia frente al insecticida dieldrina. Los resultados mostraron diferencias geográficas claras: en Ghana aparecían señales intensas de selección reciente, mientras que en Uganda prácticamente desaparecían.
🗣️ «Hoy estamos observando resistencia a insecticidas en todas estas poblaciones de mosquitos —afirma Kern. Y añade—: Uno de los grandes desafíos para frenar la malaria ha sido entender cómo evolucionó esa resistencia. Ahora podemos entrar con nuestro modelo de IA, preguntar hace cuánto surgieron esos genes de resistencia en la población y reconstruir la historia evolutiva de este vector tan importante de la malaria».
El modelo también permitió estudiar una inversión cromosómica ancestral llamada In(2L)a, una región del ADN que lleva millones de años circulando en las poblaciones de mosquitos. Los investigadores observaron que distintas partes de la inversión mostraban historias genealógicas diferentes, algo que podría ayudar a entender mejor cómo se mantienen estas estructuras genéticas durante tiempos evolutivos tan largos. fileciteturn0file0L163-L170
El auge de la biología generativa
El estudio forma parte de una transformación más amplia que empieza a extenderse por la biología computacional.
Durante años, la IA aplicada a la genética se había centrado sobre todo en tareas muy concretas: clasificar variantes, detectar mutaciones patológicas o estimar parámetros específicos. Pero los nuevos modelos generativos apuntan hacia algo distinto.
En lugar de aprender una tarea aislada, intentan aprender las reglas generales del proceso evolutivo.
Los autores defienden que este enfoque ofrece una ventaja fundamental: la capacidad de generalizar. El sistema fue entrenado usando catálogos de simulaciones evolutivas de múltiples especies y escenarios demográficos, y después fue capaz de aplicarse a especies nuevas que nunca había visto antes.
Eso recuerda a lo que ocurre con los grandes modelos lingüísticos actuales: una vez entrenados con cantidades masivas de información, pueden adaptarse a tareas nuevas mediante pequeños ajustes.
En este caso, el equivalente serían nuevos problemas evolutivos.
🗣️ «En el campo del aprendizaje automático están ocurriendo muchísimas cosas que todavía no hemos aplicado en nuestra disciplina —sostiene Korfmann—. Queda muchísimo trabajo de traducción para conseguir que estos nuevos algoritmos funcionen en biología».
Las limitaciones de una genealogía artificial
A pesar de los resultados, los propios autores subrayan que cxt no reconstruye genealogías completas ni sustituye a todos los métodos clásicos.
El sistema sigue dependiendo de simulaciones evolutivas previas, que actúan como una especie de conocimiento implícito sobre cómo evoluciona el ADN. Si la biología real se aleja demasiado de esos escenarios simulados, las predicciones pueden degradarse.
Además, algunos métodos estadísticos tradicionales continúan siendo más precisos en determinadas situaciones, especialmente cuando el coste computacional no es un problema.
Pero el trabajo demuestra algo importante: los modelos de lenguaje no sirven únicamente para escribir textos o mantener conversaciones. También pueden aprender patrones profundamente abstractos en sistemas biológicos complejos.
Genética e inteligencia artificial, la gran alianza
La evolución, al fin y al cabo, también deja huellas secuenciales. Y quizá esas huellas puedan leerse como si fueran un idioma.
En los últimos años, la biología molecular ha empezado a adoptar conceptos procedentes del procesamiento del lenguaje natural: secuencias, contexto, atención, traducción, predicción. La frontera entre ambas disciplinas se vuelve cada vez más difusa.
En ese cruce entre genética e inteligencia artificial está emergiendo una nueva generación de herramientas capaces de explorar preguntas que hasta hace poco parecían inabordables: cómo evolucionan las poblaciones en tiempo real, cómo se propagan las adaptaciones o cómo reconstruir la historia profunda de especies enteras a partir de fragmentos dispersos de ADN.
Y en esa historia, los chatbots podrían haber terminado enseñando a los genetistas una forma completamente nueva de leer la evolución.▪️(7-mayo-2026)
PREGUNTAS&RESPUESTAS: IA y Genética
🧬 ¿Qué es el cxt?
El cxt es un modelo de inteligencia artificial diseñado para genética de poblaciones. Utiliza tecnología inspirada en ChatGPT para analizar mutaciones en el ADN y reconstruir relaciones evolutivas entre genes, individuos y especies.
🧬 ¿Cómo funciona esta inteligencia artificial?
El sistema analiza patrones de mutaciones genéticas presentes en el ADN y calcula cuándo dos secuencias compartieron por última vez un ancestro común. Para ello usa una arquitectura basada en transformadores similares a GPT-2.
🧬 ¿Qué diferencia a cxt de otros modelos de IA?
A diferencia de otros sistemas entrenados para tareas genéticas concretas, cxt aprende patrones evolutivos generales mediante simulaciones biológicas y puede adaptarse a especies y escenarios nuevos.
🧬 ¿Para qué sirve esta tecnología?
La herramienta puede ayudar a estudiar la evolución humana, la aparición de genes de resistencia, la adaptación de especies, la malaria y la resistencia a insecticidas en mosquitos.
🧬 ¿Qué relación tiene con ChatGPT?
cxt se inspira en la misma familia de modelos lingüísticos que ChatGPT. La diferencia es que, en lugar de procesar lenguaje humano, interpreta secuencias genéticas y señales evolutivas.
🧬 ¿Qué es un haplotipo humano?
Un haplotipo es un conjunto de variantes genéticas que suelen heredarse juntas de uno de los progenitores. Los científicos los utilizan para rastrear parentescos y reconstruir la historia evolutiva de las poblaciones humanas.
🧬 ¿Por qué este avance es importante?
El estudio demuestra que la inteligencia artificial generativa puede utilizarse para resolver problemas complejos de biología evolutiva y genética, acelerando análisis que antes requerían días de cálculo.
🧬 ¿Quién ha desarrollado el modelo?
El proyecto ha sido desarrollado por investigadores de la Universidad de Oregón, la Universidad de Pensilvania y la Universidad Técnica de Múnich, y publicado en la revista científica PNAS.
GENÉTICA Y PALEOANTROPOLOGÍA
Los neandertales no se extinguieron: el modelo matemático que explica su desaparición por dilución genética
Información facilitada por la Universidad de Oregón
Fuente: K. Korfmann, N. S. Pope, M. Meleghy, A. Tellier & A.D. Kern. Coalescence and translation: A language model for population genetics. PNAS (2026). DOI: https://doi.org/10.1073/pnas.2518956123

