ChatGPT-4 supera a los médicos en razonamiento clínico en un estudio cara a cara. La inteligencia artificial también se equivocó con mucha más frecuencia que sus contrincantes humanos.

Por el Beth Israel Deaconess Medical Center

Los modelos de lenguaje como el ChatGPT pueden tener varios usos en el campo de la medicina, desde la asistencia en la educación médica y dar respuestas a preguntas médicas hasta apoyo en la toma de decisiones clínicas y el desarrollo de herramientas de software médico. Imagen: DALL-E

ChatGPT-4, un programa de inteligencia artificial diseñado para comprender y generar texto similar al humano, superó a los residentes de medicina interna y a los médicos jefe de residentes de dos centros médicos académicos en el procesamiento de datos médicos y la demostración de razonamiento clínico, esto es, el conjunto de procesos mentales mediante los cuales el médico plantea un diagnóstico y decide los planes de manejo y el pronóstico en un caso particular.

En una carta publicada en el JAMA Internal Medicine, médicos científicos del Centro Médico Beth Israel Deaconess (BIDMC) compararon las capacidades de razonamiento de un modelo de lenguaje grande (LLM) directamente con el desempeño humano utilizando estándares desarrollados para evaluar a los médicos.

Recordemos que un modelo de lenguaje grande o de gran tamaño, como es el caso de GPT (Generative Pre-trained Transformer) de OpenAI, es una forma de inteligencia artificial (IA) diseñada para entender, generar, y trabajar con texto humano de manera natural. Estos modelos son llamados grandes debido a su gran tamaño en términos de la cantidad de parámetros que contienen. Un parámetro es básicamente una variable interna del modelo que se ajusta durante el entrenamiento para mejorar su capacidad de predicción. Los modelos de lenguaje grandes pueden tener desde millones hasta cientos de miles de millones, o incluso más, de estos parámetros.

Estos modelos son entrenados en vastas cantidades de texto recopilado de internet y otras fuentes, y aprenden patrones de lenguaje, estructuras gramaticales, conocimientos sobre el mundo y diversos temas. Este entrenamiento les permite realizar una amplia gama de tareas relacionadas con el lenguaje, como responder preguntas, traducir entre idiomas, resumir textos, generar contenido creativo y mucho más: Todo ello con un nivel de fluidez y coherencia que a menudo puede parecer sorprendentemente humano.

Nuevas posibilidades para la interacción entre humanos y computadoras.

La P de preentrenamiento del nombre GPT se refiere al proceso de entrenar el modelo en una amplia gama de datos de texto antes de que sea ajustado o afinado para tareas específicas. Este enfoque permite que un solo modelo base sea adaptable a una variedad de aplicaciones simplemente ajustando sus parámetros finales en base a ejemplos más específicos de la tarea deseada.

La efectividad de estos modelos ha llevado a avances significativos en el procesamiento del lenguaje natural (NLP) y ha abierto nuevas posibilidades para la interacción entre humanos y computadoras, así como para la automatización de tareas que requieren comprensión o generación de texto.

"Quedó claro desde el principio que los LLM pueden hacer diagnósticos, pero cualquiera que practique la medicina sabe que esta es mucho más que eso— dice Adam Rodman, médico de Medicina Interna e investigador en el Departamento de Medicina del BIDMC. Y añade—: Hay varios pasos detrás de un diagnóstico, por lo que queríamos evaluar si los LLM son tan buenos como los médicos a la hora de realizar ese tipo de razonamiento clínico. Es un hallazgo sorprendente que estas cosas sean capaces de mostrar un razonamiento equivalente o mejor que las personas a lo largo de la evolución del caso clínico”.

Rodman y sus colegas utilizaron una herramienta previamente validada y desarrollada para evaluar el razonamiento clínico de los médicos, denominada puntuación de la IDAE revisada (r-IDEA). Los investigadores reclutaron a veintiún médicos jefe de residentes y dieciocho residentes, cada uno de los cuales trabajó en uno de los veinte casos clínicos seleccionados. Estos comprendían cuatro etapas secuenciales de razonamiento diagnóstico.

Los autores del trabajo indicaron a los médicos que escribieran y justificaran sus diagnósticos diferenciales en cada etapa. El chatbot GPT-4 recibió un mensaje con instrucciones idénticas y ejecutó los veinte0 casos clínicos. A continuación, se puntuaron sus respuestas en función del razonamiento clínico (puntuación r-IDEA) y otras medidas de razonamiento.

"La primera etapa son los datos de triaje, cuando el paciente te dice lo que le molesta y obtienes los signos vitales— explica la autora principal del trabajo Stephanie Cabral. Y añade—: ¡La segunda etapa es la revisión del sistema, cuando se obtiene información adicional del paciente. La tercera etapa es el examen físico, y la cuarta son las pruebas diagnósticas y de imagen."

Un 10 para la inteligencia artificial, un 9 para los médicos jefe de residentes y un 8 para los residentes.

Pues bien, Rodman, Cabral y sus colegas descubrieron que el chatbot obtuvo las puntuaciones r-IDEA más altas, con una puntuación media de diez sobre diez para el LLM, 9 para los médicos jefe de residentes y 8 para los residentes. Hubo más de un empate entre los humanos y el bot en lo que respecta a la precisión diagnóstica —cuán arriba estaba el diagnóstico correcto en la lista de diagnósticos que proporcionaro— y el razonamiento clínico correcto.

Sin embargo, los bots también se equivocaron a secas (hubo más casos de razonamiento incorrecto en sus respuestas) con mucha más frecuencia que los residentes, según los investigadores. El hallazgo subraya la idea de que la IA será probablemente más útil como herramienta para aumentar, no sustituir, el proceso de razonamiento humano.

"Se necesitan más estudios para determinar la mejor forma de integrar los LLM en la práctica clínica, pero incluso ahora podrían ser útiles como punto de control, ayudándonos a asegurarnos de que no se nos escapa nada— afirma Cabral. Y continúa—: Mi esperanza última es que la IA mejore la interacción médico-paciente reduciendo algunas de las ineficiencias que tenemos actualmente y nos permita centrarnos más en la conversación que mantenemos con nuestros pacientes".

"Los primeros estudios sugerían que la IA podía hacer diagnósticos si se le entregaba toda la información— sostiene Rodman. Y concluye—: Lo que pone de manifiesto nuestro estudio es que la IA demuestra un razonamiento real, quizá mejor que el de las personas, en múltiples pasos del proceso. Tenemos una oportunidad única de mejorar la calidad y la experiencia de la asistencia sanitaria para los pacientes."

Información facilitada por el Beth Israel Deaconess Medical Center
Fuente: Stephanie Cabral, Daniel Restrepo, Zahir Kanjee et al. Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Internal Medicine (2024). DOI: 10.1001/jamainternmed.2024.0295

ChatGPT-4 y los médicos se enfrentan en un estudio

El cambio climático impacta en la actividad terrorista

Perros entrenados detectan el estrés traumático en humanos por el olor del aliento