Blog
KI & Forschung: Seltene rheumatologische Erkrankungen diagnostizieren
Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Eine Vergleichsstudie prüft drei KI-Systeme direkt gegeneinander.
Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Verzögerungen sind häufig, Symptome oft unspezifisch, und selbst erfahrene Kliniker:innen tun sich mit der Mustererkennung schwer, wenn das "Muster" eher einem Einhorn gleicht.
Eine kürzlich in Rheumatology International erschienene Studie verglich drei KI-Systeme direkt miteinander. Die zentrale Frage: Führen Unterschiede in Design, Zertifizierung oder Kosten zu einer besseren diagnostischen Leistung?
Die getesteten KI-Systeme
Prof. Valmed: Abonnementbasiertes, zertifiziertes Medizinprodukt der Klasse IIb (RAG-basiert)
ChatGPT-5 Thinking: Allzweck-LLM (Large Language Model), mit Abonnement
OpenEvidence: Kostenloses, RAG-basiertes Tool für Gesundheitsfachpersonen
Studiendesign
Die Forschenden nutzten 60 kurze Patient:innen-Fälle: seltene Rheuma-Erkrankungen plus Diagnosen, die leicht verwechselt werden können.
Den exakt gleichen Prompt gaben sie in drei KI-Tools ein.
Jedes Tool musste fünf Differenzialdiagnosen mit der dazugehörigen Wahrscheinlichkeit nennen.
Drei Rheumatolog:innen, die nicht wussten, welches Tool welche Antwort geliefert hatte, bewerteten jeden Vorschlag als:
genau richtig (identisch)
plausibel
falsch
Die Leistung wurde erfasst als:
Top-1: Steht die richtige Diagnose auf Platz 1?
Top-5: Ist die richtige Diagnose oder wenigstens eine plausible unter den fünf Vorschlägen dabei?
Gesamtscore: Punktesystem über alle 60 Fälle, mit zwei Punkten für "genau richtig" und einem Punkt für "plausibel"
Verarbeitungszeit
Zentrale Ergebnisse
Identische Top-1-Diagnose:
Prof. Valmed: 23,3 %
ChatGPT-5 Thinking: 26,7 %
OpenEvidence: 35,0 %
Identisch oder plausibel unter den Top-5 Differenzialdiagnosen:
Prof. Valmed: 51,7 %
ChatGPT-5 Thinking: 58,3 %
OpenEvidence: 56,7 %
Gesamtdiagnosescore:
Prof. Valmed: 212
ChatGPT-5 Thinking: 226
OpenEvidence: 221
Durchschnittliche Verarbeitungszeit:
Prof. Valmed: 20 s
ChatGPT-5 Thinking: 36 s
OpenEvidence: 31 s
Statistisch: In den paarweisen Vergleichen zeigten sich keine signifikanten Unterschiede zwischen den Systemen.
Was besonders auffällt
Kein klarer Sieger: Alle drei Systeme zeigten eine vergleichbare diagnostische Leistung bei seltenen rheumatologischen Fällen.
Zertifizierung bedeutete keine höhere Genauigkeit: Das zertifizierte Medizinprodukt schnitt nicht besser ab als die anderen Systeme.
Sinnvolle Wahrscheinlichkeiten: Alle Systeme vergaben höhere Wahrscheinlichkeiten für korrekte als für falsche Diagnosen.
Allzweck-KI hielt mit: ChatGPT-5 Thinking war konkurrenzfähig und erreichte den höchsten Gesamtdiagnosescore.
Geschwindigkeit war nicht der Engpass: Alle Systeme lieferten Ergebnisse in unter einer Minute.
Klinische Einordnung
Selbst das beste System traf die korrekte Diagnose an erster Stelle nur in 35 % der Fälle. Diese Systeme können bei der Erstellung von Differenzialdiagnosen unterstützen, sind aber keine verlässlichen alleinstehenden Diagnoseinstrumente für seltene rheumatologische Erkrankungen.
Limitationen
Fallvignetten statt realer Patient:innen: Strukturierte Fälle bilden den klinischen Alltag nur begrenzt ab.
Mögliche Vorabkenntnis: Einige Fälle stammen aus publizierten Quellen.
Nur ein Prompt: Andere Prompt-Strategien könnten zu anderen Ergebnissen führen.
Kleine Stichprobe: 60 Fälle könnten kleine, aber relevante Unterschiede übersehen.
Momentaufnahme: KI-Modelle entwickeln sich rasch; die Ergebnisse gelten für den Testzeitraum.
Fazit
Kein klarer Sieger, aber ein klarer Nutzen: KI kann in Sekunden die Differenzialdiagnose erweitern und seltene Optionen sichtbar machen, die im hektischen Klinikalltag leicht übersehen werden. KI-Tools sollten nur unter fachärztlicher Aufsicht zur finalen Entscheidungsfindung beitragen.
Quelle:
Kremer P, Langballe E, Haase I, et al. Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation. Rheumatology International (2026).
https://doi.org/10.1007/s00296-025-06068-y