Meta entra en la predicción de la forma de las proteínas: ¿ha comenzado la carrera?

  • Salud Digital
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

Meta es la denominación que tiene desde octubre de 2021 la empresa matriz de Facebook, Instagram y WhatsApp. Este nuevo nombre se lanzó en un intento de asociarlo a una reorientación de sus actividades, después de que la originaria Facebook sufriera un serio problema reputacional tras conocerse que había traficado con información personal de sus usuarios en el llamado escándalo de Cambridge Analytica.

El caso es que Meta es una de las cinco mayores empresas tecnológicas occidentales (junto a Apple, Alphabet, Amazon y MIcrosoft), y como tal no ha querido quedarse atrás en el desarrollo de un área tan importante como la inteligencia artificial (IA), que inicialmente aplicó a actividades como la selección automatizada de contenidos, el análisis de las preferencias de los perfiles de sus usuarios o la identificación e interpretación de imágenes de las fotografías que se suben sus plataformas. Es una empresa cuya principal fuente de ingresos es la venta de publicidad, y seguramente el líder mundial en la segmentación de los mensajes comerciales que llegan a cada uno de los cientos de millones de usuarios de Facebook o Instagram.

Sabíamos que Meta (antes Facebook) había desarrollado algún intento por utilizar sus tecnologías de inteligencia artificial en áreas no relacionadas directamente con su negocio, incluyendo la actividad médica. Hace unos años colaboró con algunas universidades y empresas de software para mejorar la definición de los sistemas de imagen médica, aplicando la IA en la intención de reducir la necesidad de exponer al paciente a la radiación durante la exploración.

Lo que acaba de anunciarse, sin embargo, es algo que incide más directamente en la ciencia básica, y que nos recuerda a algo que ya estaba haciendo con notable éxito Alphabet, la matriz de Google. Consiste en aplicar la IA a la determinación de las estructuras tridimensionales de las proteínas, y no sólo las que constituyen el organismo humano, sino también las de un buen número de virus y bacterias.

¿En qué consiste el trabajo al que han dedicado la IA de meta? Básicamente, se trata de establecer una inferencia directa sobre la estructura de una proteína a partir de su secuencia primaria (es decir, la línea de aminoácidos que la componen), utilizando un modelo automatizado. De la estructura tridimensional de las proteínas se deducen características biológicas fundamentales, entre ellas cómo pueden interactuar con otro tipo de moléculas. En el área farmacéutica suponen la clave para el desarrollo de terapias más específicas y efectivas.

El programa que ha generado Meta para esto es el llamado ESMFold, y los resultados se han publicado en el blog de su división de IA bajo el título de “ESM Metagenomic Atlas: The first view of the ‘dark matter’ of the protein universe”. Adicionalmente, se ha presentado también un impresionante atlas visual con cientos de miles de ejemplos, expuestos a través de un sistema de navegación web muy llamativo, el “ESM Metagenomic Atlas”.

Qué es ESMFold.

Unos meses antes de la publicación del Atlas, concretamente en agosto de 2022, se empezaron a publicar algunos resultados provenientes del uso de esta tecnología. ESMFold es un modelo de predicción de estructuras de proteínas que se basa en un sistema de aprendizaje continuo, y que a diferencia de otros modelos que han aparecido en este campo no se basa en el análisis de secuencias múltiples, y por eso ofrece un considerable incremento de la velocidad con la que ofrece sus resultados.

Su arquitectura técnica analiza un compendio de hasta 15.000 millones de parámetros que condicionan el plegamiento de una proteína, y a partir de ahí elabora un sistema de predicción propio llamado ESM2, que está demostrando ser enormemente rápido y eficaz.

Así como AlphaFold2 (la herramienta desarrollada por Alphabet) emplea un análisis de secuencias múltiples (MSA), un proceso que incorpora una base de datos externa de secuencias de proteínas que se consideran relacionadas con la secuencia que se debe analizar y con las que se compara, ESMFold aprende de otra manera. Utiliza la llamada secuencia de entrada única, una especia de aprendizaje autosupervisado, y de esa manera acelera enormemente el tiempo de inferencia. Dicho en otras palabras, es un sistema que no se dedica a comparar, sino a aplicar un razonamiento propio.

Para probar la validez del modelo de aprendizaje, se recurrió a una base de datos de ADN metagenómico (llamado así porque ha sido secuenciado en masa a partir de fuentes ambientales o clínicas), obtenido de sustratos tan diversos como el suelo, el agua de mar o el intestino y la piel humanas. Al introducir los datos de ADN en el programa ESMFold, los investigadores predijeron las estructuras de más de 617 millones de proteínas en solo dos semanas.

 

Proteínas, estructura y funcionalidad.

 

Lo llamativo es que a pesar de que ESMFold ha querido se especialmente rápido, es capaz de ofrecer predicciones de alta calidad. Con el añadido, muy interesante para extender el desarrollo en este campo, de que se trata de un programa de arquitectura pequeña y que además es de código abierto. Esto podrá significar que los investigadores podrán usar fácilmente esta herramienta para sus propios proyectos, y sin emplear mucha inversión en hardware. Incluso se les permite crear sus propios modelos de MSA si así lo desean, para afinar la precisión de las predicciones.

ESMFold está actualmente disponible en el repositorio de GitHub, en este enlace, donde además se pueden encontrar los modelos usados en el entrenamiento y algunos cuadernos de código.

¿Hay una carrera comercial?

ESMFold no es el primer programa de IA que realiza predicciones de la estructura de las proteínas basadas en su cadena primaria. Meses atrás, la empresa DeepMind, propiedad de Alphabet, anunció que su programa de predicción AlphaFold había descifrado las formas de aproximadamente 200 millones de proteínas, y también ofreció en acceso libre un banco de datos con sus hallazgos. En ambos casos, se trata de estructuras que se predice que sean de una determinada manera, porque hace falta comprobar mediante técnicas de cristalografía de rayos X que efectivamente el pronóstico es el acertado. 

La pregunta es por qué las empresas tecnológicas propietarias de Facebook y Google están prestando tanta atención a este campo, y si se ha iniciado una carrera por liderar esta relevante parte de la investigación básica, y que tiene tantas implicaciones en biomedicina. 

Tal vez la primera respuesta es que compañías como Meta o Alphabet se han encontrado la oportunidad de aplicar una tecnología que ya tenían en sus despensas, que crearon para otras cosas, pero que se dan cuenta de que ofrece resultados en un área de inmenso interés para la medicina y las personas. Es llamativo el hecho de que ambas compañías han compartido públicamente sus librerías de código, y no se les conoce de momento una intención focalmente comercial en este campo.

De momento, ESMFold no es tan preciso como AlphaFold, pero sí 60 veces más rápido que el programa de DeepMind, según dice Meta. Los resultados de su más reciente publicación científica (“Evolutionary-scale prediction of atomic level protein structure with a language model”) aún no han sido revisados ​​por pares.

Se supone, no obstante, que el ESM Metagenomic Atlas, igual que la librería de AlphaFold, va a permitir a los científicos buscar y analizar las estructuras de cientos de miles de proteínas, lo que puede ayudar a identificar funciones bioquímicas que no se han caracterizado antes, buscar relaciones evolutivas, e incluso crear artificialmente nuevas proteínas que pueden ser útiles en medicina.