Blog

KI & Forschung: Seltene rheumatologische Erkrankungen diagnostizieren

27 January 2026 By SwissMed AI

Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Eine Vergleichsstudie prüft drei KI-Systeme direkt gegeneinander.

Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Verzögerungen sind häufig, Symptome oft unspezifisch, und selbst erfahrene Kliniker:innen tun sich mit der Mustererkennung schwer, wenn das "Muster" eher einem Einhorn gleicht.

Eine kürzlich in Rheumatology International erschienene Studie verglich drei KI-Systeme direkt miteinander. Die zentrale Frage: Führen Unterschiede in Design, Zertifizierung oder Kosten zu einer besseren diagnostischen Leistung?

Die getesteten KI-Systeme

Prof. Valmed: Abonnementbasiertes, zertifiziertes Medizinprodukt der Klasse IIb (RAG-basiert)
ChatGPT-5 Thinking: Allzweck-LLM (Large Language Model), mit Abonnement
OpenEvidence: Kostenloses, RAG-basiertes Tool für Gesundheitsfachpersonen

Studiendesign

Die Forschenden nutzten 60 kurze Patient:innen-Fälle: seltene Rheuma-Erkrankungen plus Diagnosen, die leicht verwechselt werden können.

Den exakt gleichen Prompt gaben sie in drei KI-Tools ein.

Jedes Tool musste fünf Differenzialdiagnosen mit der dazugehörigen Wahrscheinlichkeit nennen.

Drei Rheumatolog:innen, die nicht wussten, welches Tool welche Antwort geliefert hatte, bewerteten jeden Vorschlag als:

genau richtig (identisch)
plausibel
falsch

Die Leistung wurde erfasst als:

Top-1: Steht die richtige Diagnose auf Platz 1?
Top-5: Ist die richtige Diagnose oder wenigstens eine plausible unter den fünf Vorschlägen dabei?
Gesamtscore: Punktesystem über alle 60 Fälle, mit zwei Punkten für "genau richtig" und einem Punkt für "plausibel"
Verarbeitungszeit

Zentrale Ergebnisse

Identische Top-1-Diagnose:

Prof. Valmed: 23,3 %
ChatGPT-5 Thinking: 26,7 %
OpenEvidence: 35,0 %

Identisch oder plausibel unter den Top-5 Differenzialdiagnosen:

Prof. Valmed: 51,7 %
ChatGPT-5 Thinking: 58,3 %
OpenEvidence: 56,7 %

Gesamtdiagnosescore:

Prof. Valmed: 212
ChatGPT-5 Thinking: 226
OpenEvidence: 221

Durchschnittliche Verarbeitungszeit:

Prof. Valmed: 20 s
ChatGPT-5 Thinking: 36 s
OpenEvidence: 31 s

Statistisch: In den paarweisen Vergleichen zeigten sich keine signifikanten Unterschiede zwischen den Systemen.

Was besonders auffällt

Kein klarer Sieger: Alle drei Systeme zeigten eine vergleichbare diagnostische Leistung bei seltenen rheumatologischen Fällen.
Zertifizierung bedeutete keine höhere Genauigkeit: Das zertifizierte Medizinprodukt schnitt nicht besser ab als die anderen Systeme.
Sinnvolle Wahrscheinlichkeiten: Alle Systeme vergaben höhere Wahrscheinlichkeiten für korrekte als für falsche Diagnosen.
Allzweck-KI hielt mit: ChatGPT-5 Thinking war konkurrenzfähig und erreichte den höchsten Gesamtdiagnosescore.
Geschwindigkeit war nicht der Engpass: Alle Systeme lieferten Ergebnisse in unter einer Minute.

Klinische Einordnung

Selbst das beste System traf die korrekte Diagnose an erster Stelle nur in 35 % der Fälle. Diese Systeme können bei der Erstellung von Differenzialdiagnosen unterstützen, sind aber keine verlässlichen alleinstehenden Diagnoseinstrumente für seltene rheumatologische Erkrankungen.

Limitationen

Fallvignetten statt realer Patient:innen: Strukturierte Fälle bilden den klinischen Alltag nur begrenzt ab.
Mögliche Vorabkenntnis: Einige Fälle stammen aus publizierten Quellen.
Nur ein Prompt: Andere Prompt-Strategien könnten zu anderen Ergebnissen führen.
Kleine Stichprobe: 60 Fälle könnten kleine, aber relevante Unterschiede übersehen.
Momentaufnahme: KI-Modelle entwickeln sich rasch; die Ergebnisse gelten für den Testzeitraum.

Fazit

Kein klarer Sieger, aber ein klarer Nutzen: KI kann in Sekunden die Differenzialdiagnose erweitern und seltene Optionen sichtbar machen, die im hektischen Klinikalltag leicht übersehen werden. KI-Tools sollten nur unter fachärztlicher Aufsicht zur finalen Entscheidungsfindung beitragen.

Quelle:
Kremer P, Langballe E, Haase I, et al. Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation. Rheumatology International (2026).
https://doi.org/10.1007/s00296-025-06068-y

Zurück zum Blog