El futuro de la inteligencia artificial: más allá de los grandes modelos de lenguaje

Los grandes modelos de lenguaje (LLM) han revolucionado la inteligencia artificial, pero sus limitaciones impulsan una nueva era de modelos más precisos, colaborativos y adaptativos. ¿Cómo será la IA del futuro?

Por Enrique Coperías

La IA del futuro será más autónoma, adaptativa y colaborativa, combinando conocimiento especializado, modelos interconectados y aprendizaje continuo para resolver problemas complejos con precisión y eficiencia

La IA del futuro será más autónoma, adaptativa y colaborativa, combinando conocimiento especializado, modelos interconectados y aprendizaje continuo para resolver problemas complejos con precisión y eficiencia. Imagen generada con DALL-E

Un reciente publicado en la revista Engineering ahonda en el futuro de la inteligencia artificial (IA) más allá de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Recordemos que estos son algoritmos de inteligencia artificial (IA) diseñados para procesar, comprender y generar texto de manera similar al lenguaje humano.

Los LLM se entrenan con enormes volúmenes de datos utilizando técnicas de aprendizaje profundo, específicamente redes neuronales basadas en arquitecturas Transformer, lo que les permite reconocer patrones en el lenguaje y realizar tareas como traducción automática, generación de contenido, análisis de texto y asistencia conversacional.

Así, modelos como GPT-4, PaLM y LLaMA han demostrado capacidades avanzadas en razonamiento, creatividad y resolución de problemas. Sin embargo, presentan limitaciones como la información desactualizada, la generación de respuestas inexactas (alucinaciones), la falta de interpretabilidad y el alto consumo computacional, lo que impulsa la investigación en nuevas técnicas para mejorar su precisión, eficiencia y adaptabilidad.

Para abordar estos desafíos, Fei Wu y sus colegas de la Facultad de Ciencias de la Computación y Tecnología, en la Universidad de Zhejiang (China), han explorado tres direcciones clave en la IA del futuro, que desarrollan en un artículo publicado en la revista Engineering: la potenciación del conocimiento, la colaboración entre modelos y la coevolución de modelos.

Potenciación del conocimiento en la IA

La primera de ellas, esto es, la potenciación del conocimiento, busca integrar información externa en los modelos de IA para mejorar la precisión de sus respuestas y su capacidad de razonamiento.

Para lograrlo, se aplican diversas estrategias avanzadas, como el entrenamiento optimizado con bases de conocimiento estructurado, que ayuda a reducir la generación de información incorrecta, y el ajuste fino con instrucciones especializadas, que permite que los modelos aprendan de manera más precisa en contextos específicos.

Además, se emplea la recuperación de información en tiempo real, mediante la combinación de los modelos de lenguaje con sistemas de búsqueda, para ofrecer respuestas más actualizadas y precisas. Otro enfoque clave es el uso de indicaciones (prompting) inteligentes, en las que el modelo recibe datos estructurados en forma de texto, mejorando su capacidad de comprensión y generación de contenido preciso.

Estas técnicas permiten optimizar la exactitud de los modelos de lenguaje, y los hace más confiables y eficientes en entornos empresariales, científicos y tecnológicos.

Colaboración entre modelos de IA

Otra vía prometedora para mejorar la IA post-LLM es la colaboración entre diferentes tipos de modelos, aprovechando sus respectivas fortalezas para optimizar la eficiencia y la especialización en dominios concretos, afirman los autores del estudio en Engineering. Según estos, este enfoque se divide en dos estrategias principales.

✅ La primera estratagema es la fusión de modelos, que consiste en combinar varios modelos más pequeños y especializados para alcanzar un rendimiento comparable o superior al de un único LLM de gran escala. Un ejemplo de esto es la técnica de mezcla de expertos (Mixture of Experts, MoE), en la que distintos modelos especializados colaboran bajo la dirección de una red de compuerta.

Esta red es un mecanismo en modelos de inteligencia artificial que selecciona de forma dinámica qué modelos deben activarse para procesar una tarea específica, optimizando así el rendimiento y la eficiencia computacional.

✅ La segunda estrategia conisste en la colaboración funcional entre modelos, donde modelos más pequeños y especializados trabajan en conjunto con grandes modelos de lenguaje, delegando tareas específicas a modelos más eficientes y precisos en determinados ámbitos.

Por ejemplo, los LLM pueden actuar como agentes inteligentes, organizando y gestionando el trabajo de modelos especializados en visión por computadora, reconocimiento de voz o generación de imágenes. Entre los enfoques más avanzados en esta forma de cooperación destacan los llamados sistemas de agentes inteligentes. En estos, los grandes modelos de lenguaje sirven como gestores de tareas, coordinando múltiples modelos especializados encargados de procesar diferentes tipos de información.

Según Wu, esto ha dado lugar a nuevas arquitecturas, como HuggingGPT, que permite a los LLM utilizar modelos específicos para mejorar la precisión y la eficiencia de la inteligencia artificial en tareas concretas. Este enfoque es clave en aplicaciones de IA generativa, asistentes virtuales y automatización de procesos en empresas tecnológicas.

Hoja de ruta de la post-LLM.

Hoja de ruta de la post-LLM. Cortesía: Fei Wu et al.

Coevolución de modelos, el mañana de la IA

En tercer lugar, la coevolución de modelos busca que varios sistemas de IA evolucionen juntos, compartiendo conocimiento y estrategias de aprendizaje para mejorar su adaptabilidad en entornos dinámicos. Wu y su equipo destacan que los ingenieros han desarrollado distintas técnicas para abordar diversos tipos de heterogeneidad. Entre ellas, destacan las siguientes:

✅ Para la heterogeneidad de modelos, se utilizan métodos como la compartición de parámetros, la destilación dual de conocimientos (dual KD) y la proyección de parámetros mediante hiperredes, lo que permite que modelos de distinta arquitectura aprendan unos de otros sin necesidad de reentrenamiento constante.

✅ Frente a la heterogeneidad de tareas, técnicas como el aprendizaje dual, el aprendizaje adversarial y la fusión de modelos permiten que distintas redes colaboren en la resolución de problemas interrelacionados, optimizando de esta manera su eficiencia y precisión.

✅ Para la heterogeneidad de datos, el aprendizaje federado —un método de inteligencia artificial que permite entrenar modelos en múltiples dispositivos o servidores sin compartir los datos originales— y la destilación de conocimientos fuera de la distribución ayudan a entrenar modelos con datos provenientes de diversas fuentes sin comprometer la privacidad ni la seguridad de la información.

Estos avances tienen aplicaciones en ciencia de datos, optimización de algoritmos, automatización industrial y análisis de big data.

Impacto de la IA en ciencia, ingeniería y sociedad

Wu asegura que los modelos post-LLM están revolucionando múltiples sectores. En ciencia, facilitan la formulación de hipótesis basadas en datos avanzados. En meteorología, por ejemplo, los modelos de IA mejoran la predicción del clima y el análisis de energías renovables.

En ingeniería, optimizan la simulación de procesos físicos; y en la sociedad transforman la educación, la atención médica y la planificación urbana.

Uno de los avances más innovadores es el uso de redes neuronales informadas por principios físicos (PINN), que permiten modelar fenómenos físicos respetando leyes científicas, lo que mejora sin duda alguna la precisión de predicciones en mecánica de fluidos y en la conducción térmica.

Además, los agentes de IA están facilitando la resolución de problemas matemáticos complejos mediante el uso de razonamiento simbólico combinado con redes neuronales profundas.

Hacia la próxima generación de la IA

De cara al futuro, el artículo de Engineering identifica varias tendencias clave en el desarrollo de la inteligencia artificial avanzada:

La IA inspirada en el cerebro humano (Brain-like AI), que busca emular la cognición humana para mejorar la adaptabilidad y eficiencia de los modelos.

Los modelos de IA alternativos a los transformers —son una arquitectura de red neuronal basada en mecanismos de atención que permiten procesar secuencias de datos de manera eficiente— y arquitecturas como Hyena y RetNet, que buscan mejorar la eficiencia en el procesamiento de grandes volúmenes de datos.

La automatización de la generación de modelos de IA, donde los LLM no solo procesarán datos, sino que crearán modelos más pequeños optimizados para tareas específicas.

A modo de colofón, Wu y sus colegas opinan que, en la medida en que la inteligencia artificial continúe evolucionando, la integración del conocimiento, la colaboración entre modelos y la coevolución de sistemas serán claves para construir IA más robusta, eficiente y capaz de afrontar desafíos complejos.

La IA del futuro no solo optimizará procesos en tecnología, ciencia e industria, sino que transformará la manera en que interactuamos con la automatización, el análisis de datos y la innovación tecnológica. ▪️

  • Fuente: Fei Wu, Tao Shen, Thomas Bäck, Jingyuan Chen, Gang Huang, Yaochu Jin, Kun Kuang, Mengze Li, Cewu Lu, Jiaxu Miao, Yongwei Wang, Ying Wei, Fan Wu, Junchi Yan, Hongxia Yang, Yi Yang, Shengyu Zhang, Zhou Zhao, Yueting Zhuang, Yunhe Pan. Knowledge-Empowered, Collaborative, and Co-Evolving AI Models: The Post-LLM Roadmap. Engineering (2025). DOI: https://doi.org/10.1016/j.eng.2024.12.008.

Anterior
Anterior

Los ratones prestan «primeros auxilios» a sus compañeros heridos

Siguiente
Siguiente

Resuelto el misterio de cómo los cúmulos galácticos se mantienen calientes