Por qué ChatGPT no puede pensar como nosotros
¿Puede una IA realmente entender conceptos abstractos o simplemente repite patrones que ha aprendido? Un nuevo estudio revela sorprendentes limitaciones en el razonamiento de los modelos GPT.
Por Enrique Coperías
Los modelos de IA, aunque muestran capacidades impresionantes, no comprenden realmente lo que hacen. Su habilidad para generalizar es limitada y dependen más de patrones superficiales que de una comprensión profunda.
La inteligencia artificial (IA), especialmente los grandes modelos lingüísticos como el GPT-4, ha mostrado un rendimiento notable en tareas de razonamiento. Sin embargo, surge una pregunta fundamental: ¿la IA comprende verdaderamente conceptos abstractos o simplemente replica patrones aprendidos?
Un estudio reciente realizado por la Universidad de Ámsterdam, en los Países Bajos, y el Santa Fe Institute, en Estados Unidos, revela que, aunque los modelos de lenguaje GPT (como GPT-4) son buenos resolviendo algunos tipos de problemas que requieren razonamiento analógico, su capacidad disminuye notablemente si esos problemas se presentan con variaciones o modificaciones.
En otras palabras, los modelos GPT son competentes para resolver tareas que ya han visto o que son similares a las de su entrenamiento, pero muestran dificultades cuando enfrentan problemas nuevos o diferentes, lo que sugiere que su razonamiento es menos flexible y adaptable en comparación con el de los humanos.
Y esto pone al descubierto debilidades clave en las capacidades de razonamiento de la IA.
El razonamiento analógico: clave para la comprensión humana
El razonamiento analógico es la habilidad de establecer comparaciones entre conceptos diferentes basándose en similitudes específicas. Este tipo de razonamiento es esencial para que los seres humanos comprendan el mundo y tomen decisiones informadas. Un ejemplo clásico de analogía es: la taza es al café lo que el tazón es a la sopa (la respuesta es: tazón).
Los grandes modelos lingüísticos, como el GPT-4, obtienen buenos resultados en diversas pruebas, incluidas aquellas que requieren razonamiento analógico. Sin embargo, surge la duda: ¿son capaces estos modelos de razonar de manera general y robusta, o dependen en exceso de los patrones presentes en sus datos de entrenamiento?
Este interrogante fue el motor del estudio liderado por Martha Lewis (Instituto de Lógica, Lenguaje y Computación de la Universidad de Ámsterdam) y Melanie Mitchell (Instituto Santa Fe), ambas expertas en lenguaje e inteligencia artificial.
«Esto es crucial —afirma Lewis—. Ya que la IA se emplea cada vez más para tomar decisiones y resolver problemas del mundo real».
IA versus razonamiento humano: comparaciones clave
En su estudio, publicado en la revista Transactions on Machine Learning Research, Lewis y Mitchell evaluaron el rendimiento de humanos y modelos GPT en tres tipos de problemas de analogía:
Secuencias de letras: identificar patrones en secuencias alfabéticas y completarlas correctamente.
Matrices de dígitos: analizar patrones numéricos y determinar los números que faltan.
Analogías de historias: comprender cuál de dos narraciones se asemeja más a una historia de ejemplo.
Las autoras explican que «un sistema que realmente comprendiera las analogías debería mantener un rendimiento elevado incluso cuando los problemas se presentan con variaciones». Por ello, además de evaluar la resolución de los problemas originales, el estudio analizó el desempeño de los modelos GPT ante modificaciones sutiles en estos desafíos.
Los límites del razonamiento en la IA
Los resultados fueron reveladores. Los seres humanos mantuvieron un rendimiento alto en la mayoría de las versiones modificadas de los problemas. En contraste, aunque los modelos GPT mostraron buenos resultados en las pruebas estándar, experimentaron dificultades notables ante variaciones.
«Esto sugiere que los modelos de IA razonan de forma menos flexible que los humanos, basando su desempeño más en la coincidencia de patrones que en una comprensión abstracta genuina», dice Lewis.
Lewis y Mitchell evaluaron el rendimiento de humanos y modelos GPT en tres tipos de problemas de analogía. En el caso de las secuencias de letras, los experimentos demostraron que, mientras los humanos mantenían un rendimiento alto en tareas con alfabetos permutados o con símbolos en lugar de letras, los modelos GPT-3, GPT-3.5 y GPT-4 mostraron una caída significativa en su rendimiento.
Falta de robustez
Este hallazgo indica que los modelos dependen en gran medida de patrones superficiales en lugar de una comprensión abstracta de las transformaciones alfabéticas.
En el segundo tipo de problema, esto es, en el caso de las matrices de dígitos, los modelos GPT también mostraron dificultades al enfrentarse a variaciones, especialmente cuando se alteraba la posición del número faltante en la matriz. Mientras que los seres humanos resolvieron estas variaciones sin problemas, los modelos GPT experimentaron una disminución drástica en su rendimiento, lo que resalta su falta de robustez frente a modificaciones estructurales sencillas.
Finalmente, en las analogías de historias, los modelos GPT-4 tendieron a elegir la primera opción presentada con mayor frecuencia, mientras que los humanos no se vieron influenciados por el orden de las respuestas. Además, cuando los elementos clave de una historia se reformularon, los GPT-4 mostraron mayores dificultad. Este hecho indica una dependencia de similitudes superficiales en lugar de un razonamiento causal profundo.
Dónde ganan los seres humanos
El artículo científico de Lewis y Mitchell complementa y profundiza en estos hallazgos. El estudio resalta que, a pesar de los éxitos reportados previamente sobre el razonamiento analógico de los modelos GPT, estos modelos a menudo carecen de la robustez observada en los humanos.
Específicamente, las autoras observaron que, en pruebas de analogías basadas en historias, la precisión de los modelos GPT disminuyó cuando se alteró el orden de las respuestas o se parafrasearon los elementos clave de la narrativa. Esto demuestra que los modelos son sensibles a factores superficiales y carecen de una comprensión profunda de las relaciones causales.
Por otro lado, los modelos GPT-4 mostraron una marcada influencia del orden de las respuestas, logrando un 89% de precisión cuando la respuesta correcta se presentaba primero, pero solo un 61% cuando se presentaba en segundo lugar. Los seres humanos, en cambio, mantuvieron un rendimiento constante sin importar el orden de las opciones.
La IA está lejos de reemplazar al pensamiento y al razonamiento humanos
Y, al reemplazar dígitos por símbolos en las matrices de números, los seres humanos mantuvieron su rendimiento, mientras que los modelos GPT experimentaron una disminución significativa, lo que sugiere una comprensión menos flexible.
Esta investigación cuestiona la suposición generalizada de que los modelos de IA, como GPT-4, pueden razonar del mismo modo que los seres humanos. Lewis y Mitchell concluyen lo siguiente: «Aunque los modelos de IA demuestran capacidades impresionantes, esto no significa que entiendan realmente lo que hacen. Su capacidad para generalizar ante variaciones sigue siendo muy inferior a la de la cognición humana. Los modelos GPT suelen apoyarse en patrones superficiales en lugar de una comprensión profunda».
Se trata de una advertencia crítica para el uso de la IA en importantes áreas de toma de decisiones, como la educación, el derecho y la sanidad. Si bien la IA puede ser una herramienta poderosa, aún está lejos de reemplazar al pensamiento y al razonamiento humanos.
Los hallazgos subrayan la importancia de evaluar no solo la precisión de los sistemas de IA, sino también su robustez al probar sus capacidades cognitivas. La investigación futura deberá centrarse en desarrollar modelos que no solo reconozcan patrones, sino que también comprendan profundamente las relaciones abstractas y causales que sustentan el razonamiento humano. ▪️
Información facilitada por la Universidad de Ámsterdam
Fuente: Martha Lewis and Melanie Mitchell. Evaluating the Robustness of Analogical Reasoning in GPT Models. Transactions on Machine Learning Research (2025). DOI: 10 345