Una IA predice la ubicación de prácticamente cualquier proteína dentro de una célula humana

Esta tecnología, capaz de predecir la localización de proteínas dentro de células humanas individuales, podría acelerar el diagnóstico de enfermedades como el cáncer y el alzhéimer, así como facilitar el desarrollo de nuevos fármacos más efectivos.

Adam Zewe / MIT News

Los investigadores del MIT realizaron experimentos de validación para probar su nuevo modelo. La fila superior muestra la predicción del modelo de líneas celulares y proteínas no vistas, mientras que la inferior muestra la validación experimental.

Los investigadores del MIT realizaron experimentos de validación para probar su nuevo modelo. La fila superior muestra la predicción del modelo de líneas celulares y proteínas no vistas, mientras que la inferior muestra la validación experimental. Image: Cortesía de los investigadores / MIT News

Una proteína situada en la parte equivocada de una célula puede contribuir a varias enfermedades, como el alzhéimer, la fibrosis quística y el cáncer. Pero en una sola célula humana hay unas 70.000 proteínas y variantes proteicas diferentes, y como los científicos solo pueden analizar un puñado en un experimento, identificar manualmente la ubicación de las proteínas resulta muy costoso y requiere de mucho tiempo.

Una nueva generación de técnicas computacionales trata de agilizar el proceso utilizando modelos de aprendizaje automático que a menudo aprovechan conjuntos de datos que contienen miles de proteínas y sus localizaciones, medidas en múltiples líneas celulares.

Uno de los mayores conjuntos de datos de este tipo es el Human Protein Atlas, que cataloga el comportamiento subcelular de más de 13.000 proteínas en más de cuarenta líneas celulares. Pero por enorme que sea, el Human Protein Atlas únicamente ha explorado alrededor del 0,25% de todos los posibles emparejamientos de todas las proteínas y líneas celulares dentro de la base de datos.

¿Por qué importa saber dónde está una proteína?

Ahora, investigadores del MIT, de la Universidad de Harvard y del Instituto Broad del MIT y Harvard han desarrollado un nuevo método computacional capaz de explorar eficazmente el espacio inexplorado restante. Su método puede predecir la localización de cualquier proteína en cualquier línea celular humana, incluso cuando tanto la proteína como la célula nunca se han analizado antes.

La técnica va un paso más allá que muchos métodos basados en inteligencia artificial (IA), ya que localiza una proteína a nivel unicelular, en lugar de hacerlo como una estimación promediada en todas las células de un tipo específico. Esta localización unicelular permitiría, por ejemplo, determinar el lugar que ocupa una proteína en una célula cancerosa concreta tras un tratamiento.

Los investigadores combinaron un modelo de lenguaje proteínico con un tipo especial de modelo de visión por ordenador para captar todos los detalles de una proteína y una célula.

Al final, el usuario recibe una imagen de una célula con una parte resaltada que indica la predicción del modelo sobre la ubicación de la proteína.

Caza de proteínas desde un ordenador

Dado que la localización de una proteína es indicativa de su estado funcional, esta técnica podría ayudar a investigadores y médicos a diagnosticar enfermedades o identificar dianas farmacológicas con mayor eficacia, al tiempo que permitiría a los biólogos comprender mejor cómo los procesos biológicos están relacionados con la localización de las proteínas.

«Se podrían hacer estos experimentos de localización de proteínas en un ordenador sin tener que tocar ninguna mesa de laboratorio, con lo que se ahorrarían meses de esfuerzo —afirma Yitong Tseo, estudiante de posgrado del programa de Biología Computacional y de Sistemas del MIT y coautor principal de un artículo sobre esta investigación en la revista Nature Methods. Y añade—: Aunque todavía habría que verificar la predicción, esta técnica serviría como una primera selección de lo que hay que comprobar experimentalmente»,

Muchos de los modelos de predicción de proteínas existentes solo pueden hacer predicciones basadas en los datos de proteínas y células en los que fueron entrenados o son incapaces de determinar con precisión la localización de una proteína dentro de una sola célula.

Las proteínas ocupan aproximadamente el 40% del citoplasma, creando así un entorno propicio para la interacción.

¿Qué hace diferente a PUPS?

Para superar estas limitaciones, los investigadores crearon un método de predicción en dos partes de la localización subcelular de proteínas desconocidas, denominado PUPS (Predicting Unseen Protein Subcellular locations).

La primera parte utiliza un modelo de secuencia proteica para captar las propiedades determinantes de la localización de una proteína y su estructura tridimensional basada en la cadena de aminoácidos que la forma.

La segunda parte incorpora un modelo de inpainting de imágenes, diseñado para rellenar las partes que faltan en una imagen. Este modelo de visión por ordenador observa tres imágenes teñidas de una célula para recabar información sobre el estado de esa célula, como su tipo, sus características individuales y si está sometida a estrés celular.

PUPS une las representaciones creadas por cada modelo para predecir dónde se encuentra la proteína dentro de una única célula, utilizando un descodificador de imágenes para generar una imagen resaltada que muestra la ubicación prevista.

«Las distintas células de una misma línea celular presentan características diferentes, y nuestro modelo es capaz de comprender esos matices», afirma Tseo.

El usuario introduce la secuencia de aminoácidos que forman la proteína y tres imágenes de tinción celular: una para el núcleo, otra para los microtúbulos y otra para el retículo endoplásmico. PUPS hace el resto.

PUPS, entrenado a la vez con proteínas y líneas celulares

Los investigadores emplearon algunos trucos durante el proceso de entrenamiento para enseñar a PUPS a combinar la información de cada modelo de forma que pueda hacer una conjetura sobre la localización de la proteína, aunque no la haya visto antes.

Por ejemplo, asignan al modelo una tarea secundaria durante el entrenamiento: nombrar el compartimento celular. Esto se hace junto con la tarea primaria de inpainting para ayudar al modelo a aprender de forma más eficaz.

Además, el hecho de que PUPS se entrene con proteínas y líneas celulares al mismo tiempo le ayuda a desarrollar una comprensión más profunda de dónde tienden a localizarse las proteínas en una imagen celular.

PUPS puede incluso entender, por sí solo, cómo las distintas partes de la secuencia de una proteína contribuyen por separado a su localización global.

Próximos pasos: del laboratorio al cuerpo humano

Como PUPS es capaz de generalizar a proteínas desconocidas, puede captar cambios en la localización provocados por mutaciones únicas de proteínas que no están incluidas en el Atlas de Proteínas Humanas.

Los investigadores verificaron que PUPS podía predecir la localización subcelular de nuevas proteínas en líneas celulares desconocidas realizando experimentos de laboratorio y comparando los resultados. Además, en comparación con un método de IA de referencia, PUPS presentaba de media menos errores de predicción en las proteínas analizadas.

En el futuro, los investigadores quieren mejorar PUPS para que el modelo pueda comprender las interacciones proteína-proteína y hacer predicciones de localización de múltiples proteínas dentro de una célula. A más largo plazo, quieren que PUPS pueda hacer predicciones en tejido humano vivo, en lugar de células cultivadas. ▪️

  • Reportaje publicado con la autorización de MIT News - Adaptación: Enrique Coperías

  • Fuente: Zhang, X., Tseo, Y., Bai, Y. et al. Prediction of protein subcellular localization in single cells. Nature Methods (2025). DOI: https://doi.org/10.1038/s41592-025-02696-1

Anterior
Anterior

Las vetas oscuras de las laderas de Marte no son señales de agua, sino de polvo y viento

Siguiente
Siguiente

La Luna podría esconder otra cara oculta… y caliente