Blog

Die KI war dabei. Sie hat trotzdem etwas verpasst.

16 June 2026 By SwissMed AI

⏱️ Lesezeit: ca. 3 Minuten


Ambient-KI-Systeme schreiben klinische Notizen schnell, aber nicht immer präzise. Eine neue JAMIA-Analyse zeigt, welche Inhalte Ärztinnen und Ärzte am häufigsten nachbearbeiten — und damit auch, worauf man bei eigenen Tests und im Review besonders genau schauen sollte. [1]

KI-generiertes Symbolbild. Die Abbildung dient ausschließlich der Illustration des Themas.

Eine Studie, die im Mai 2026 im Fachjournal JAMIA (Journal of the American Medical Informatics Association) erschienen ist, bietet eine der bislang detailliertesten Analysen zu dieser Frage. [1] Forschende des UCI Health (University of California, Irvine) analysierten 1.804 Textänderungen auf Wortebene in 314 KI-generierten Notizabschnitt-Paaren aus 200 Patientenkontakten – über 33 Fachgebiete und 73 Ärztinnen und Ärzte, mit zwei kommerziellen Ambient-KI-Systemen, integriert in das EHR-System Epic. Untersucht wurden vorwiegend Anamnese sowie Assessment und Plan; Untersuchungsbefund und Resultate waren deutlich seltener vertreten. Beide Systeme blieben aus vertraglichen Gründen anonym – ein wesentlicher Vorbehalt für Praxen, die konkrete Produkte vergleichen oder beschaffen möchten. [1]

Wichtig vorab: Es handelt sich um eine einzelne qualitative Inhaltsanalyse an einem einzigen US-amerikanischen Universitätsspital. Die Ergebnisse sind nicht direkt auf Schweizer Dokumentationsworkflows, andere Versorgungskontexte oder andere Produkte übertragbar.

📊 Wo die meisten Korrekturen anfallen

Die Textänderungen konzentrierten sich klar auf klinische Inhalte – nicht auf Formatierung oder Ton. Häufigkeit nach Kategorie: [1]

  • Prozeduren, Untersuchungen und Laboraufträge — 40,0 % (Testart, Zeitpunkt, Ort oder Status unklar oder falsch)

  • Symptombeschreibungen — 30,3 % (zu unspezifisch oder nicht zur aktuellen Konsultation passend)

  • Medikationsdetails — 27,3 % (Dosis, Frequenz, Applikationsweg oder Medikamentenname fehlend oder falsch)

  • Diagnoseformulierung — 25,9 % (zu breite Diagnosen präzisiert; Klärung, ob gesichert oder noch in Abklärung)

  • Vorerkrankungen — 18,9 %

  • Soziale Anamnese — 17,8 %

Textänderungen am Sprachstil waren deutlich seltener: Sicherheit und Einschränkungen (4,1 %), Empathie und Rapport (3,1 %). Die Studie legt nahe, dass Ambient AI in der klinischen Präzision besonders sorgfältig überprüft werden muss, während sprachliche Glättung weniger häufig erforderlich war. [1]

🔧 Fünf wiederkehrende Bearbeitungstypen

Die thematische Analyse identifizierte fünf Muster, wie Ärztinnen und Ärzte KI-Entwürfe überarbeiten: [1]

  1. Sachliche Unstimmigkeiten korrigieren — Namen, Medikamentendosierungen, Untersuchungsdetails, anatomische Angaben

  2. Fachspezifische Details ergänzen — generische Entwürfe fehlten an Tiefe, etwa in Neurologie, Orthopädie, Kardiologie oder Handchirurgie

  3. Diagnostische Sicherheit anpassen — in den analysierten Passagen zeigte sich als wiederkehrendes Muster, dass definitive Formulierungen durch qualifizierte Sprache ersetzt wurden, z.B. „aufgrund von” → „wahrscheinlich aufgrund von”

  4. Patientensprache in klinische Dokumentationssprache übersetzen — patientenattribuierte Aussagen wurden in standardisierte klinische Formulierungen umgeschrieben

  5. Struktur bereinigen und verdichten — lange Absätze in Aufzählungen umgewandelt, Duplikate entfernt, Inhalte in korrekte Abschnitte verschoben

Das dritte Muster spricht direkt die Autorenschaft an: In bearbeiteten Passagen fanden sich wiederholt Formulierungen, die Diagnosen bestimmter darstellten, als die Konsultation rechtfertigte – mit potenziellem juristischem Risiko, wenn das unkorrigiert bliebe. [1]

📌 Wo die Daten ihre Grenzen haben

  • Einzelnes Zentrum, einziges Land — Bearbeitungsmuster in Schweizer Praxen, kleineren Kliniken oder im deutsch-, französisch- und italienischsprachigen Versorgungskontext können abweichen

  • Keine unentdeckten Fehler erfasst — die Studie zeigt, was geändert wurde, nicht was unbemerkt verblieb. Die klinisch relevanteren Probleme sind jene, die niemand findet

  • Keine Patientenoutcomes — ob nicht korrigierte Abweichungen die Versorgung beeinflusst haben, wurde nicht untersucht

  • Vendor-Anonymität — beide Systeme bleiben unbenannt. Praxen, die eine Einführung erwägen, können diese Daten nicht für Produktvergleiche nutzen

  • Regulierung und Verantwortung — für Schweizer Praxen gilt das revidierte Datenschutzgesetz (revDSG): Eine Datenschutz-Folgeabschätzung ist erforderlich, wenn die Datenbearbeitung voraussichtlich ein hohes Risiko für Persönlichkeit oder Grundrechte mit sich bringt – der Einsatz neuer Technologien wie KI ist dabei ein relevanter Beurteilungsfaktor. [3] Bei Audioaufnahmen von Konsultationen sind spezifische Einwilligungsanforderungen separat rechtlich zu klären. Die Ärztin oder der Arzt muss die finalisierte Dokumentation prüfen und verantworten – dies schliesst eine allfällige Mitverantwortung von Anbietern oder Institutionen nicht aus

🔎 Das Wichtigste auf einen Blick

  • 314 Notizabschnitt-Paare aus 200 Patientenkontakten, 33 Fachgebiete, 73 Ärztinnen und Ärzte – an einem einzigen US-Universitätsspital

  • Am häufigsten bearbeitet: Prozeduren/Untersuchungen/Laboraufträge (40,0 %), Symptome (30,3 %), Medikation (27,3 %), Diagnoseformulierung (25,9 %)

  • In analysierten Passagen zeigte sich ein Muster zu definitiver diagnostischer Sprache – Ärztinnen und Ärzte qualifizierten diese regelmässig ab

  • Sprachstil und Ton wurden deutlich seltener bearbeitet als klinische Inhalte

  • Beide untersuchten Systeme blieben anonym – Produktvergleiche sind auf Basis dieser Daten nicht möglich

  • Keine Patientenoutcomes gemessen – klinische Konsequenzen nicht korrigierter Abweichungen bleiben offen

📌 Fazit

Die eigentliche Botschaft dieser Studie ist nicht, dass Ambient AI schlecht funktioniert, sondern dass der Review-Prozess auf die richtigen Inhaltsbereiche ausgerichtet sein muss. Wer solche Systeme testet oder einführt, sollte deshalb nicht nur auf Stil und Lesbarkeit achten, sondern vor allem auf klinische Genauigkeit, Vollständigkeit der Medikation und Prozedurdetails sowie die Konsistenz der Diagnoseformulierung. Genau dort fallen in dieser Analyse die meisten Änderungen an.


Quellen

Gefällt dir das? Neue Artikel direkt ins Postfach.