AlphaFold2, ¿un antes y un después en la biología estructural?

Por David Talens Perales @biogenmol

Cuando ves que se habla de estructura de proteínas en medios generalistas, como por ejemplo el periódico El País es que algo "gordo" esta pasando en este campo, y si buscas información y ves que un mismo grupo ha sido capaz de publicar dos artículos con pocos días de diferencia en la revista Nature, es que realmente puede ser un punto de inflexión en el campo de la estructura de proteínas. ¿Qué se ha conseguido realmente?
No se entiende la vida sin las proteínas, ni las proteínas sin la vida, dado que son el principio y el fin de lo que los biólogos mal llamamos ya el dogma central de la biología. Nuestro ADN tiene como principal función contener las instrucciones para sintetizar las proteínas, pero este ADN no se puede copiar sin la participación de las proteínas, actuando como enzimas. Todo el metabolismo, los procesos que ocurren en un organismo, desde su nacimiento hasta su muerte, dependen de las proteínas. Reacciones químicas encadenadas entre sí que están catalizadas por ellas. Pero, además, forman parte de la estructura que nos sustenta y nos da forma, ya que las proteínas son la base de los músculos, la piel, el cabello, etc, conocidas como proteínas estructurales. 

Conocer la estructura química de estas pequeñas máquinas moleculares ha sido el anhelo de muchos bioquímicos. Conocer la estructura permite entender el mecanismo molecular y las posibilidades catalíticas que nos ofrecen. Puede ayudarnos a entender qué ocurre cuando no funcionan correctamente, y qué ha cambiado para que no funcionen, permitiendo el diseño de fármacos para contrarrestar ese mal funcionamiento.La obtención de cristales de proteínas y la difracción de rayos X permitió obtener la estructura de la mayor parte de proteínas que conocemos en la actualidad. El principal cuello de botella de esta técnica es la obtención de cristales de calidad que permitan obtener una buena resolución, y obtenerlos es todo un arte con normas que no están escritas y que muchas veces implican probar distintas condiciones y esperar que alguna de ellas de los resultados esperados (o no). Ese cuello de botella ha hecho que muchas proteínas hayan tardado años en estar resueltas, sin embargo, en los últimos años nuevas tecnologías han aparecido para baipasear la obtención de cristales, como es el uso de la criomicroscopía electrónica. Meses atrás yo mismo os conté en el blog su utilidad y os di como ejemplo la resolución de la estructura de la enzima que fue el núcleo de mi tesis doctoral (aquí).En ocasiones estas técnicas no están a la merced de todo el mundo y se recurre al uso de modelos  para hacer inferencias sobre la posible estructura, diseñar mutaciones etc. Hasta el momento estos modelos se basaban en comparar las secuencias de aminoácidos, buscar dominios ya resueltos por los métodos anteriormente comentados e ir ensamblando la nueva estructura. Esta aproximación ha funcionado muy bien hasta el momento, sobre todo en familias de proteínas de las que existen muchas estructuras resueltas. Sin embargo, hay otras proteínas que no tienen estructuras resueltas en las que basarse y esto dificulta la obtención de modelos fiables. Este inconveniente puede quedar resuelto gracias a Alpha Fold2.La inteligencia artificial o "DeepLearning" es una tecnología que tenemos en la palma de nuestra mano. Se basa en algoritmos que permiten "aprender" de forma progresiva y crear "redes neuronales". Es la misma tecnología que usa Siri en nuestros iPhone para ir grabando rutinas, aprender dónde y a qué sitios solemos ir, predecir lo que escribimos, darnos sugerencias, etc. Esto no pasó desapercibido para el neurocientífico Demis Hassabis que fundó la empresa DeepMind, una empresa para impulsar la inteligencia artificial que por allá el año 2013 logró aprender y jugar a diferentes videojuegos. ¿Por qué no usar esa capacidad para resolver uno de los mayores retos de la biología? Así nació la idea de aplicar esta inteligencia artificial a la resolución de estructuras proteicas, pero de una forma distinta a la que conocemos actualmente.  En lugar de basarse en la construcción por dominios, comparando con proteínas similares ya resueltas, la estructura se infiere a partir de la secuencia primaria teniendo en cuenta aquello que ha aprendido AlphaFold2 a partir de posición de los residuos, plegamientos, cálculos de energía y un largo etc., usando como libro de aprendizaje TODAS las estructuras presentes en el Protein Data Bank y no sólo las que tienen una secuencia similar. De esta forma regiones que antes quedaban sin asignación de estructura, por no parecerse a ninguno de los dominios previamente resuelto, podrían tener un modelo asignado gracias a AlphaFold2.
El por qué no se ha hecho antes es por la espectacular potencia de cálculo que se requiere para hacer estas predicciones. Ya os adelanto que se necesitan granjas de servidores dotados de potentes GPUs y CPUs además de grandes espacios de almacenamiento.Este artículo salió hace unos pocos días, e inmediatamente me hizo pensar que abría la posibilidad de que alguien cogiese el proteoma de un organismo y infiriese la estructura de cada una de esas proteínas. Pues bien, tres o cuatro días después de la publicación de este artículo ha aparecido otro del mismo grupo en el que han obtenido la estructura del proteoma humano. Un total de 20300 secuencias que han requerido el uso de unas cuantas gráficas Nvidia V100 cuya capacidad de cálculo es 32 veces mayor que el de la mejor CPU del momento. Son equipos que no están al alcance de casi nadie, cada gráfica cuesta la friolera de 7000 euros. No obstante, han creado una base de datos pública que permite que ahora mismo uno pueda meterse en esta página: https://alphafold.ebi.ac.uk y descargar la estructura modelizada de la proteína humana que le interese.Estoy seguro que en breves veremos muchos artículos, muchos descubrimientos, patentes, etc., estarán basados en los resultados obtenidos en este proyecto y en esta metodología. Además, puede que este tipo de inteligencia artificial permita la creación de proteínas de novo introduciendo la posición espacial del sustrato, residuos catalíticos, etc. Sería como asignar unos requerimientos mínimos a partir de los cuales el software sugiriese una estructura primaria capaz de albergar ese sitio catalítico propuesto. El siguiente paso será la creación de catalizadores a la carta. ¿Cuánto tardaremos en verlo? Ni idea, pero las herramientas necesarias, sin duda, quedan más cerca que nunca.

Os dejo los dos artículos por si son de vuestro interés:

Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021). https://doi.org/10.1038/s41586-021-03819-2

Tunyasuvunakool,K. et al. Highly accurate protein structure prediction for the human proteome. Nature  (2021).https://doi.org/10.1038/s41586-021-03828-1Os dejo también la página del proyecto: https://deepmind.com