Cómo la IA podría automatizar la investigación genómica
Modelos de lenguaje grandes como el GPT-4 pueden facilitar la automatización y aceleración del análisis de genes y cómo estos afectan a nuestra biología.
Por Enrique Coperías
Investigadores de la Facultad de Medicina de la Universidad de California en San Diego (Estados Unidos) han demostrado que los grandes modelos lingüísticos (LLM), como el GPT-4, podrían ayudar a automatizar la investigación en genómica funcional, una rama de la genética que estudia el funcionamiento de los genes y sus productos a través del análisis de las funciones y las interacciones que tienen en los organismos.
A diferencia de la genómica estructural, que se centra en la secuenciación y el mapeo de los genomas, la funcional busca entender cómo los genes se expresan, regulan y colaboran para llevar a cabo funciones biológicas específicas.
El enfoque más utilizado por los expertos en genómica funcional, denominado enriquecimiento de conjuntos de genes, pretende determinar la función de grupos de genes identificados experimentalmente. Se realiza comparando estos grupos con bases de datos genómicas existentes con el fin de encontrar patrones comunes y entender cómo interactúan en procesos biológicos específicos.
La IA podría ahorrar a los científicos muchas horas de trabajo intensivo
Sin embargo, la biología más interesante y novedosa suele quedar fuera del alcance de las bases de datos establecidas. El uso de la inteligencia artificial (IA) para analizar conjuntos de genes podría ahorrar a los científicos muchas horas de trabajo intensivo y acercar a la ciencia un paso más hacia la automatización de uno de los métodos más utilizados para comprender cómo los genes trabajan juntos para influir en la biología.
Al probar cinco LLM diferentes —GPT-3.5, GPT-4, Gemini Pro, Mixtral Instruct y Llama2 70b—, los investigadores descubrieron que GPT-4 era el más exitoso, ya que alcanzaba una tasa de precisión del 73% en la identificación de funciones comunes de conjuntos de genes seleccionados de una base de datos genómica de uso común.
Recordemos que los grandes modelos lingüísticos son sistemas de inteligencia artificial entrenados con enormes cantidades de texto para comprender, generar y manipular lenguaje natural. Utilizan redes neuronales profundas para predecir y generar palabras, frases y respuestas coherentes en función del contexto.
Pues bien, cuando se le pidió que analizara conjuntos de genes aleatorios, GPT-4 se negó a proporcionar un nombre en el 87% de los casos, lo que demuestra el potencial de GPT-4 para analizar conjuntos de genes con un mínimo de engaños o alucinaciones, esto es, respuestas inventadas. Además, GPT-4 pudo ofrecer explicaciones detalladas para respaldar su proceso de asignación de nombres cuando lo hacía.
Aplicaciones en genómica y medicina de precisión
Aunque es necesario seguir investigando para explorar a fondo el potencial de los LLM en la automatización de la genómica funcional, el estudio, publicado en la revista Nature Methods, subraya la necesidad de seguir invirtiendo en el desarrollo de los grandes modelos lingüísticos y sus aplicaciones en genómica y medicina de precisión, un enfoque médico que adapta los tratamientos y la prevención a las características individuales de cada persona, considerando factores como su genética, estilo de vida y entorno, para lograr terapias más efectivas y personalizadas.
Para ello, los investigadores crearon un portal web para ayudar a otros investigadores a incorporar los LLM en sus flujos de trabajo de genómica funcional. En términos más generales, los resultados también demuestran el poder de la IA para revolucionar el proceso científico sintetizando información compleja para generar hipótesis nuevas y comprobables en una fracción del tiempo. ▪️
Información facilitada por la UC San Diego School of Medicine
Fuente: Hu, M., Alkhairy, S., Lee, I. et al. Evaluation of large language models for discovery of gene set function. Nature Methods (2024). DOI: https://doi.org/10.1038/s41592-024-02525-x