[ChatGPT for use in technology-enhanced learning in anesthesiology and emergency medicine and potential clinical application of AI language models : Between hype and reality around artificial intelligence in medical use]

Anaesthesiologie. 2024 May;73(5):324-335. doi: 10.1007/s00101-024-01403-7. Epub 2024 May 1.
[Article in German]

Abstract

Background: The utilization of AI language models in education and academia is currently a subject of research, and applications in clinical settings are also being tested. Studies conducted by various research groups have demonstrated that language models can answer questions related to medical board examinations, and there are potential applications of these models in medical education as well.

Research question: This study aims to investigate the extent to which current version language models prove effective for addressing medical inquiries, their potential utility in medical education, and the challenges that still exist in the functioning of AI language models.

Method: The program ChatGPT, based on GPT 3.5, had to answer 1025 questions from the second part (M2) of the medical board examination. The study examined whether any errors and what types of errors occurred. Additionally, the language model was asked to generate essays on the learning objectives outlined in the standard curriculum for specialist training in anesthesiology and the supplementary qualification in emergency medicine. These essays were analyzed afterwards and checked for errors and anomalies.

Results: The findings indicated that ChatGPT was able to correctly answer the questions with an accuracy rate exceeding 69%, even when the questions included references to visual aids. This represented an improvement in the accuracy of answering board examination questions compared to a study conducted in March; however, when it came to generating essays a high error rate was observed.

Discussion: Considering the current pace of ongoing improvements in AI language models, widespread clinical implementation, especially in emergency departments as well as emergency and intensive care medicine with the assistance of medical trainees, is a plausible scenario. These models can provide insights to support medical professionals in their work, without relying solely on the language model. Although the use of these models in education holds promise, it currently requires a significant amount of supervision. Due to hallucinations caused by inadequate training environments for the language model, the generated texts might deviate from the current state of scientific knowledge. Direct deployment in patient care settings without permanent physician supervision does not yet appear to be achievable at present.

Zusammenfassung: HINTERGRUND: Der Einsatz von KI-Sprachmodellen in der Lehre und Wissenschaft ist aktuell Gegenstand der Forschung, und auch die Anwendung im klinischen Alltag ist in der Erprobung. Untersuchungen verschiedener Arbeitsgruppen haben gezeigt, dass Sprachmodelle Prüfungsfragen für das medizinische Staatsexamen beantworten können, und auch in der medizinischen Lehre sind Anwendungen von Sprachmodellen denkbar.

Fragestellung: Es soll untersucht werden, inwiefern sich Sprachmodelle der aktuellen Version für den Einsatz bei medizinischen Fragestellungen bewähren, inwiefern sie in der medizinischen Lehre eingesetzt werden können, und welche Herausforderungen in der Arbeit mit KI-Sprachmodellen noch bestehen.

Methode: Das Programm ChatGPT, basierend auf GPT 3.5, wurde genutzt, um 1025 Fragen des M2-Staatsexamens zu beantworten, und es wurde untersucht, ob und welche Fehler dabei auftraten. Außerdem wurde das Sprachmodell vor die Aufgabe gestellt, Aufsätze zu den Lernzielen der Musterweiterbildungsordnung für die Facharztweiterbildung in Anästhesiologie und die Zusatzbezeichnung in Notfallmedizin zu verfassen. Diese wurden auf Fehler und Auffälligkeiten hin untersucht.

Ergebnis: Es zeigte sich, dass ChatGPT die Fragen zur mehr als 69 % richtig beantworten konnte, selbst wenn in den Aufgabenstellungen Verweise auf Abbildungen vorhanden waren. Damit konnte eine Verbesserung der Richtigkeit in der Beantwortung von Staatsexamensfragen im Vergleich zu einer Untersuchung aus dem März gefunden werden. Bei dem Verfassen von Aufsätzen zeigte sich dagegen eine hohe Fehlerrate.

Diskussion: Bei dem aktuellen Tempo der fortwährenden Verbesserungen von KI-Sprachmodellen ist der breite klinische Einsatz, insbesondere in der Rettungsstelle, aber auch in der Notfall- und Intensivmedizin, bei der Arbeit von Assistenzärzten ein denkbares Szenario, die damit Hinweise für die eigene Arbeit bekommen, ohne sich nur auf das Sprachmodell verlassen zu müssen. Der Einsatz in der Lehre bedeutet für die Anwender aktuell noch einen hohen Kontrollaufwand. Aufgrund von Halluzinationen bei teils ungeeigneter Trainingsumgebung des Sprachmodells können die erstellten Texte vom aktuellen Stand der Wissenschaft abweichen. Der direkte Einsatz am Patienten außerhalb der direkten Verantwortung eines Arztes erscheint aktuell noch nicht realisierbar.

Keywords: Computer-assisted learning; Diagnostics; Education; Intensive care; Token.

Publication types

  • English Abstract

MeSH terms

  • Anesthesiology* / education
  • Artificial Intelligence*
  • Curriculum
  • Education, Medical / methods
  • Emergency Medicine* / education
  • Humans
  • Language