Blog

KI & Forschung: Seltene rheumatologische Erkrankungen diagnostizieren

27 January 2026 By SwissMed AI
KI & Forschung: Seltene rheumatologische Erkrankungen diagnostizieren

Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Eine Vergleichsstudie prüft drei KI-Systeme direkt gegeneinander.

Die Diagnose seltener rheumatologischer Erkrankungen ist schwierig. Verzögerungen sind häufig, Symptome oft unspezifisch, und selbst erfahrene Kliniker:innen tun sich mit der Mustererkennung schwer, wenn das "Muster" eher einem Einhorn gleicht.

Eine kürzlich in Rheumatology International erschienene Studie verglich drei KI-Systeme direkt miteinander. Die zentrale Frage: Führen Unterschiede in Design, Zertifizierung oder Kosten zu einer besseren diagnostischen Leistung?


Die getesteten KI-Systeme

  • Prof. Valmed: Abonnementbasiertes, zertifiziertes Medizinprodukt der Klasse IIb (RAG-basiert)

  • ChatGPT-5 Thinking: Allzweck-LLM (Large Language Model), mit Abonnement

  • OpenEvidence: Kostenloses, RAG-basiertes Tool für Gesundheitsfachpersonen


Studiendesign

Die Forschenden nutzten 60 kurze Patient:innen-Fälle: seltene Rheuma-Erkrankungen plus Diagnosen, die leicht verwechselt werden können.

Den exakt gleichen Prompt gaben sie in drei KI-Tools ein.

Jedes Tool musste fünf Differenzialdiagnosen mit der dazugehörigen Wahrscheinlichkeit nennen.

Drei Rheumatolog:innen, die nicht wussten, welches Tool welche Antwort geliefert hatte, bewerteten jeden Vorschlag als:

  • genau richtig (identisch)

  • plausibel

  • falsch

Die Leistung wurde erfasst als:

  • Top-1: Steht die richtige Diagnose auf Platz 1?

  • Top-5: Ist die richtige Diagnose oder wenigstens eine plausible unter den fünf Vorschlägen dabei?

  • Gesamtscore: Punktesystem über alle 60 Fälle, mit zwei Punkten für "genau richtig" und einem Punkt für "plausibel"

  • Verarbeitungszeit


Zentrale Ergebnisse

Identische Top-1-Diagnose:

  • Prof. Valmed: 23,3 %

  • ChatGPT-5 Thinking: 26,7 %

  • OpenEvidence: 35,0 %

Identisch oder plausibel unter den Top-5 Differenzialdiagnosen:

  • Prof. Valmed: 51,7 %

  • ChatGPT-5 Thinking: 58,3 %

  • OpenEvidence: 56,7 %

Gesamtdiagnosescore:

  • Prof. Valmed: 212

  • ChatGPT-5 Thinking: 226

  • OpenEvidence: 221

Durchschnittliche Verarbeitungszeit:

  • Prof. Valmed: 20 s

  • ChatGPT-5 Thinking: 36 s

  • OpenEvidence: 31 s

Statistisch: In den paarweisen Vergleichen zeigten sich keine signifikanten Unterschiede zwischen den Systemen.


Was besonders auffällt

  • Kein klarer Sieger: Alle drei Systeme zeigten eine vergleichbare diagnostische Leistung bei seltenen rheumatologischen Fällen.

  • Zertifizierung bedeutete keine höhere Genauigkeit: Das zertifizierte Medizinprodukt schnitt nicht besser ab als die anderen Systeme.

  • Sinnvolle Wahrscheinlichkeiten: Alle Systeme vergaben höhere Wahrscheinlichkeiten für korrekte als für falsche Diagnosen.

  • Allzweck-KI hielt mit: ChatGPT-5 Thinking war konkurrenzfähig und erreichte den höchsten Gesamtdiagnosescore.

  • Geschwindigkeit war nicht der Engpass: Alle Systeme lieferten Ergebnisse in unter einer Minute.


Klinische Einordnung

Selbst das beste System traf die korrekte Diagnose an erster Stelle nur in 35 % der Fälle. Diese Systeme können bei der Erstellung von Differenzialdiagnosen unterstützen, sind aber keine verlässlichen alleinstehenden Diagnoseinstrumente für seltene rheumatologische Erkrankungen.


Limitationen

  • Fallvignetten statt realer Patient:innen: Strukturierte Fälle bilden den klinischen Alltag nur begrenzt ab.

  • Mögliche Vorabkenntnis: Einige Fälle stammen aus publizierten Quellen.

  • Nur ein Prompt: Andere Prompt-Strategien könnten zu anderen Ergebnissen führen.

  • Kleine Stichprobe: 60 Fälle könnten kleine, aber relevante Unterschiede übersehen.

  • Momentaufnahme: KI-Modelle entwickeln sich rasch; die Ergebnisse gelten für den Testzeitraum.


Fazit

Kein klarer Sieger, aber ein klarer Nutzen: KI kann in Sekunden die Differenzialdiagnose erweitern und seltene Optionen sichtbar machen, die im hektischen Klinikalltag leicht übersehen werden. KI-Tools sollten nur unter fachärztlicher Aufsicht zur finalen Entscheidungsfindung beitragen.


Quelle:
Kremer P, Langballe E, Haase I, et al. Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation. Rheumatology International (2026).
https://doi.org/10.1007/s00296-025-06068-y