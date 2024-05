Nacido en Sevilla en 1959, Alfonso Valencia es profesor ICREA y dirige el Departamento de Ciencias de la Vida del Barcelona Supercomputing Center. Investiga en el desarrollo de métodos de biología computacional y su aplicación a problemas médicos.

¿Recuerda su primer contacto escolar con la biología? ¿Qué le fascinó de ella? Ya desde el bachillerato me gustaban las cosas que tenían que ver con células y organismos. Cuando estaba en segundo de la carrera de Biología, se conoció la secuenciación del primer virus completo. Aquello me llamó mucho la atención, era muy novedoso. Desde hace 40 años llevo haciendo lo mismo, básicamente intentar interpretar genomas con métodos computacionales.

¿Pensó en sus inicios que la biología acabaría tan unida a la tecnología? Era algo impensable. No existían ni la biología computacional ni la bioinformática. Durante muchos años, el camino era muy incierto, incluso resultaba difícil de explicar: "Hago cosas con ordenadores y genomas, con proteínas", decía.

¿Qué le hizo interesarse? Tuve curiosidad. Bueno, mira, lo más influyente para mí en aquella época era mi novia, que estudiaba física y computación. Mi tesis ya incluyó el desarrollo de un programa, ‘software’ para resolver un problema biológico. Luego, en el 96, tuve la suerte de acabar en el primer curso mundial sobre diseño de proteínas en ordenador, en el Laboratorio Europeo de Biología Molecular, y eso cambió completamente mi forma de ver las cosas y me puso en contacto con otras personas que estaban pensando en hacer lo mismo.

¿Qué se cuece en el departamento de Ciencias de la Vida del Barcelona Supercomputing Center? Somos 200 personas –biólogos, biólogos computacionales, ingenieros, físicos, matemáticos, filósofos, hay un poco de todo–, posiblemente sea el departamento de bioinformática y biología computacional más grande de Europa. Cubrimos: genomas, desde el humano a bacterias, proteínas, fármacos, moléculas..., redes biológicas para entender por ejemplo la información epidemiológica. Mucha parte tiene que ver, ahora mismo, con el desarrollo de inteligencia artificial y, en particular, modelos de lenguaje.

¿En biología? Lo mismo que a Chat GPT lo entrenas con textos y genera textos, aprende a hablar, se puede entrenar a estos modelos con secuencias de proteínas y aprenden a ‘hablar’ proteínas. Así, se generan nuevas proteínas con nuevas funciones. Y esto de entrenar modelos de lenguaje con proteínas, que parece una cosa un poco rara, una supercompañía como Meta lo está haciendo. Tenemos conjuntos de 700 millones de proteínas producidas artificialmente. Y hay publicaciones de proteínas diseñadas de esta forma para nuevas funciones que son acopladas a nuevos fármacos que ya han entrado en ensayos clínicos. O sea, que no estamos hablando de ciencia ficción, es un futuro que está ya aquí.

¿Qué supone contar con un superordenador como el Mare Nostrum 5? Es imprescindible para entrenar modelos de lenguaje, una tarea que es devastadora computacionalmente, porque requiere un montón de capacidad computacional. Para entrenar el gran modelo de lenguaje en castellano y lenguas cooficiales que está creando España no bastaba el Mare Nostrum 4. Lo mismo para el análisis de genomas. El BSC, en colaboración con el Laboratorio Europeo de Biología Molecular, almacena la base de datos donde están los genomas humanos que se secuencian. 18 petabytes de datos. Un millón de veces más que todos los textos que tenemos en castellano. Una base de datos enorme cuando hacemos análisis de genomas del cáncer. Preguntas biológicas como qué mutaciones están asociadas a qué tipo de cáncer requieren una gran cantidad de datos y se pueden responder gracias a que tenemos computadores como el Mare Nostrum 5. La biología produce muchos datos ahora mismo, compitiendo con disciplinas como la física, se ha vuelto muy demandante de recursos computacionales para poder analizar esos datos.

Los datos biomédicos son un tesoro, un yacimiento de conocimiento, pero a la vez son especialmente sensibles por temas de privacidad. ¿Compartirlos para investigar es un sueño alcanzable, se trabaja en ello? Compartir datos es fundamental para avanzar en cualquier estudio. Es bueno para la humanidad, pero garantizando la confidencialidad y que no escapen de nuestro control. Los resultados dependen de tener suficientes datos y suficientemente variados, algo que escapa de las fronteras de un hospital o de un país, seguir a miles de pacientes en el tiempo. Trabajamos muy intensamente en esto y estamos en un momento clave, construyendo el espacio europeo de datos sanitarios, una nueva regulación que facilitará el uso de datos médicos para investigación. Los problemas no son técnicos. Hay que resolver algunas barreras psicológicas y legales. Si se comparten datos de los bancos, se podrán compartir los datos genómicos.

¿Qué más hay en su vida, además de ciencia, con qué disfruta?

Yo disfruto mucho con las cosas que hago, nada me gusta más, pero ir de excursión al campo me da sensación de libertad, vamos a la ópera siempre que podemos y me gusta leer. Nada exótico.