ChatGPT als Patientenratgeber bei Handbeschwerden: Irgendwo zwischen hilfreich und lückenhaft
05. Aug, 2025
Ein gar nicht mehr neues Szenario: Ein Patient betritt die Praxis – und hat sich vorher bereits umfassend von einer KI beraten lassen. Tatsächlich nutzen immer mehr Menschen KI-Tools wie ChatGPT, um sich bereits vor dem Arztbesuch über Symptome, Diagnosen und Therapien zu informieren. Doch wie fundiert sind diese Auskünfte wirklich? Eine US-Studie1 hat nun untersucht, wie gut ChatGPT* medizinische Fragen zu den fünf häufigsten Handbeschwerden beantworten kann. Dabei wurden sowohl die Richtigkeit als auch die Vollständigkeit der Antworten untersucht. Dieser Beitrag beleuchtet, was die KI kann, wo sie (noch) nicht glänzen kann – und warum es für Behandelnde wichtig ist, sich mit dem neuen digitalen Gegenüber auseinanderzusetzen.
Im Fokus der Studie stand die Frage, ob das KI-gestützte Sprachmodell in der Lage ist, verlässliche, korrekte und vollständige Informationen zu häufigen Erkrankungen der Hand bereitzustellen. Hintergrund der Studie ist die zunehmende Nutzung von KI durch medizinische Laien, die sich vor oder nach ärztlichen Konsultationen im Internet über Diagnosen, Symptome und Behandlungsmöglichkeiten informieren.
Konkret analysierte die Studie die Antworten von ChatGPT zu fünf häufigen Krankheitsbildern der Hand: Karpaltunnelsyndrom, Dupuytren-Kontraktur, De-Quervain-Tendovaginitis, Schnappfinger und Rhizarthrose (CMC-Arthritis). Für jede dieser fünf Diagnosen wurde ein Set aus 12 bis 15 typischen Fragen formuliert, wie sie von betroffenen Laien häufig gestellt werden.
Die Fragen deckten ein breites Spektrum ab, beispielsweise zu Krankheitsursachen, konservativen und operativen Behandlungsoptionen, Genesung, Versicherungen und potenziellen beruflichen Einschränkungen. Jede Frage wurde in einem neuen, eigenständigen Chatfenster eingegeben, um die Antworten nicht durch vorherige Chats zu beeinflussen.
Die von ChatGPT generierten Antworten wurden von zehn Handchirurginnen und Handchirurgen unabhängig voneinander bewertet. Dabei kamen zwei Bewertungsskalen zum Einsatz: Einerseits wurde die Richtigkeit der Antworten auf einer sechsstufigen Skala beurteilt (von „komplett falsch“ bis „korrekt“), andererseits wurde die Vollständigkeit der Antworten auf einer dreistufigen Skala erfasst (von „unvollständig“ bis „umfassend“).
Hat sich ChatGPT gut geschlagen?
Ja und nein! Insgesamt zeigte sich, dass ChatGPT zwar größtenteils richtige, aber oft nicht vollständige Antworten lieferte:
Der Mittelwert bei der Richtigkeit der Antworten lag bei 4,83 von 6 möglichen Punkten, was einem Wert zwischen „überwiegend korrekt“ und „nahezu vollständig korrekt“ liegt.
Die Vollständigkeit der Antworten wurde hingegen durchschnittlich nur mit 2,0 von 3 möglichen Punkten bewertet. Dies entspricht einer ausreichenden, aber selten umfassenden Informationsdarstellung.
Die Analyse der Einzelwerte nach Krankheitsbild offenbarte geringfügige Unterschiede.
Die höchste Genauigkeit konnte ChatGPT bei Schnappfinger und Rhizarthrose (jeweils 4,95) erzielen, während beim Karpaltunnelsyndrom mit 4,59 die geringste Punktzahl erreicht wurde.
Über alle Diagnosen hinweg lagen die Vollständigkeitswerte in einem engen Bereich zwischen 2,21 und 2,35, wobei die höchste Vollständigkeit beim Karpaltunnelsyndrom (2,35) und die niedrigste bei der Rhizarthrose (2,21) festgestellt wurde.
Beispiel: Auszug aus dem Fragenkatalog der Studie zum Karpaltunnelsyndrom (KTS)
- Was ist ein KTS?
- Wie wird ein KTS behandelt?
- Wie lange dauert es, bis man sich ohne Operation davon erholt?
- Welche chirurgischen Indikationen gibt es für das KTS?
- Welche Risiken birgt eine Karpaltunneloperation?
- Wie lange dauert die Erholungsphase nach einer Karpaltunneloperation?
Wo liegen die Einschränkungen der Studie?
Eine zentrale Herausforderung der Studie war die mangelnde Konsistenz der Bewertungen durch die verschiedenen Fachleute. Die sogenannte Interrater-Reliabilität, gemessen mittels Krippendorffs Alpha, fiel mit Werten unter 0,25 sehr niedrig aus. Das heißt, die Fachleute waren sich oft uneinig darüber, ob eine bestimmte Antwort korrekt und vollständig war. Diese Uneinigkeit wurde nicht zwingend durch schlechte oder ungenaue Antworten von ChatGPT verursacht, sondern unterstreicht vielmehr, dass selbst medizinische Fachleute medizinische Informationen unterschiedlich gewichten oder interpretieren – insbesondere bei Fragen von Laien, die oft nicht präzise gestellt werden.
Einordnung der Ergebnisse
Trotz dieser Einschränkungen liefert die Studie wichtige Erkenntnisse. So war ChatGPT beispielsweise in der Lage, medizinisch größtenteils richtige Informationen bereitzustellen. Die Qualität der Antworten war in vielen Fällen mit Informationsmaterialien, die in den Wartezimmern der Arztpraxen angeboten werden, vergleichbar.
Gleichzeitig wurde deutlich, dass die Antworten derzeit in ihrer Tiefe und Differenziertheit nicht an das Wissen und die kommunikativen Fähigkeiten von Ärztinnen und Ärzten heranreichen. Insbesondere bei zwei Fragestellungen blieb die KI häufig vage oder ausweichend: bei der Indikation für operative Eingriffe und bei der Erstellung einer Nutzen-Risiko-Abwägung.
Fazit
- ChatGPT, in seiner kostenfreien 3.5-Version, kann trotz teils beeindruckender Fähigkeiten nicht als Ersatz für eine ärztliche Konsultation dienen.
- Es sollte vielmehr als unterstützendes Tool betrachtet werden, das Patientinnen und Patienten erste Informationen liefert, die jedoch einer professionellen Einordnung und Ergänzung durch ärztliches Fachpersonal bedürfen.
- Für die Behandelnden wird es immer wichtiger zu wissen, welche Informationen heute aus KI-Systemen wie ChatGPT gezogen werden und welche Missverständnisse oder Lücken daraus entstehen können.
- Hier ergeben sich auch Chancen: Ärztliche Aufklärungsgespräche könnten gezielter erfolgen, wenn die Patientinnen und Patienten bereits mit Vorwissen in die Praxis kommen, welches sie sich mithilfe von KI-Tools angeeignet haben.
* In dieser Studie wurde die kostenfreie ChatGPT Version 3.5 verwendet, die zum Zeitpunkt der Untersuchung unter Laien eines der meistverwendeten KI-Tools war.
Quellenangabe
1 Jagiella-Lodise O, Suh N, Zelenski NA. Can Patients Rely on ChatGPT to Answer Hand Pathology–Related Medical Questions? HAND. 2024;20(5):801-809. doi:10.1177/15589447241247246
Mehr zu Digitalisierung und künstlicher Intelligenz