ChatGPT aprueba los exámenes de medicina pero con peores resultados que los estudiantes

  • Dr. med.Thomas Kron
  • Noticias
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

Los chatbots están despertando grandes esperanzas en muchos ámbitos de la sociedad y las disciplinas científicas. Entre las posibles aplicaciones en medicina se encuentran escribir las notas de los médicos o ayudar a los pacientes a encontrar el mejor tratamiento. Lo que puede hacer un chatbot como ChatGPT, entre otras cosas, lo ha demostrado recientemente un equipo de investigadores dirigido por la catedrática, la Dra. Inga Katharina Koerte de la Universidad Ludwig-Maximilians (LMU) de Múnich. Según publican la científica y sus colaboradores en el Deutsches Ärzteblatt, ChatGPT aprobó los exámenes estatales de Medicina, aunque se excluyeron las preguntas sobre imágenes. Al parecer, los Exámenes Estatales de Licencia Médica (United States Medical License Exam, USMLE) tampoco suponen un obstáculo, tal y como ha descrito otro grupo de investigación en la revista especializada PLOS Digital Health.

ELIZA: un chatbot médico desde hace más de 50 años

Mientras los ordenadores y el concepto de inteligencia artificial se estaban desarrollando casi de manera simultánea en las décadas de los 40 y 50, los profesionales de la medicina no tardaron en reconocer su importancia y beneficios potenciales. Hace unos 50 años se predijo que la informática complementaría las tareas intelectuales del médico, informan los autores de una reciente publicación sobre chatbots en medicina en el New England Journal of Medicine.

Un chatbot es un programa informático que utiliza la inteligencia artificial y el procesamiento del lenguaje natural para entender preguntas y ofrecer respuestas automatizadas que simulan una conversación humana. El primer chatbot médico, ELIZA, fue desarrollado entre 1964 y 1966 por Joseph Weizenbaum en el Laboratorio de Inteligencia Artificial del Instituto Tecnológico de Massachusetts. Desde entonces, la tecnología informática ha avanzado rápidamente, haciendo que programas como ChatGPT sean mucho más potentes que ELIZA. Inga Katharina Koerte y sus colaboradores pusieron a prueba la potencia de ChatGPT utilizando el ejemplo de los exámenes médicos estatales.

El primer y el segundo examen estatal de medicina

Como explican los autores, quien desee obtener una licencia para ejercer la medicina en Alemania debe aprobar tres exámenes estatales de medicina: el primero (M1) sobre temas preclínicos, el segundo (M2) sobre temas clínicos y el tercerol (M3), en el que, a diferencia del primero y el segundo, solo se realizan pruebas orales.

Según los investigadores, los análisis se basan en las preguntas de los exámenes escritos del M1 (del 23 al 24 de agosto de 2022) y del M2 (del 11 al 13 de octubre de 2022), excluyendo las preguntas cuya respuesta requería una imagen. En total, fueron 263 preguntas de M1 y 252 de M2.

Las preguntas de los exámenes, como subrayan los autores, solo están disponibles en plataformas de pago. Además, no había preguntas de examen idénticas en los cinco años anteriores al final de la formación de la versión ChatGPT utilizada a finales de 2021. Por tanto, es altamente probable que las preguntas de examen examinadas fueran desconocidas para el algoritmo ChatGPT.

Resultado

Según informan los autores, la tasa de respuestas correctas de ChatGPT fue del 60,1 % en el M1 y del 66,7 % en el M2. Así pues, el programa superó ambos exámenes con una nota de 4 (suficiente).

Los mejores resultados en el M1 se obtuvieron en biología (77,8 %), sociología (75,9 %) y psicología (73,3 %). ChatGPT obtuvo peores resultados en química (33,3 %), física (45,5 %) y anatomía (46,4 %).

En el segundo examen estatal, Chatbot obtuvo los mejores resultados en farmacología (94,7 %), oftalmología (85,7 %) y dermatología (85,7 %), y los peores en otorrinolaringología (33,3 %), neurología (46,7 %) y epidemiología (46,7 %).

Sin tener en cuenta las preguntas de imagen, ChatGPT había superado por poco las pruebas escritas de los dos exámenes estatales. Su rendimiento había sido similar al de los exámenes estadounidenses. Sin embargo, ChatGPT obtuvo peores resultados globales que la media de los examinandos (alumnos M1 = 73,0 %; M2 = 74,2 %).

Esto podría deberse a que las preguntas médicas se introdujeron originalmente en alemán, y a que ChatGPT se entrenó en un 93 % con textos en inglés y sin un enfoque médico.

La conclusión de los autores fue: "Estos primeros resultados muestran el rendimiento de ChatGPT a la hora de responder preguntas médicas complejas utilizando el ejemplo de los exámenes estatales de medicina. Su capacidad para estructurar datos médicos e interpretar la información en base a la bibliografía disponible encierra potencial para el uso de ChatGPT en medicina."

Nuevas posibilidades, pero también nuevos riesgos

ChatGPT-4 es extremadamente potente, subrayan los doctores Peter Lee y Sebastien Bubeck, de Microsoft (Richmond), y Joseph Petro, de Nuance Communications (Burlington). Sin embargo, también señalan importantes limitaciones. Aunque el sistema puede detectar errores cometidos tanto por la inteligencia artificial como por los humanos, también puede equivocarse. No obstante, Lee y sus coautores también creen que los chatbots serán cada vez más utilizados tanto por los profesionales sanitarios como por los pacientes. Abre una puerta a nuevas posibilidades, pero también a nuevos riesgos. A ChatGPT-4 pronto le seguirán sistemas de inteligencia artificial aún más potentes y capaces. Si se utilizan con cuidado y con un grado adecuado de precaución, tienen el potencial de ayudar a los profesionales sanitarios a prestar la mejor atención posible a los pacientes.

Este contenido fue  publicado originalmente en Univadis Alemania.