Wer wissen möchte, wie sicher moderne KI-Agenten gegen Manipulationsversuche sind, stößt schnell auf ein Problem: Die veröffentlichten Zahlen lassen sich oft kaum miteinander vergleichen.
Ausgerechnet Anthropic sorgt derzeit für Aufmerksamkeit, weil das Unternehmen in seinem aktuellen Sicherheitsbericht ungewöhnlich detaillierte Daten veröffentlicht. Darin wird beschrieben, wie häufig sogenannte Prompt-Injection-Angriffe auf verschiedene Claude-Umgebungen erfolgreich waren. Bei Browser-Agenten lag die Erfolgsquote in bestimmten Testkonfigurationen zunächst bei 31,5 Prozent. Mit aktivierten Schutzmechanismen sank dieser Wert auf 0,5 Prozent.
Die Zahlen wirken auf den ersten Blick alarmierend. Tatsächlich zeigen sie vor allem, wie unterschiedlich die Hersteller ihre Sicherheitsbewertungen veröffentlichen.
Was ist eine Prompt Injection?
Bei einer Prompt Injection versteckt ein Angreifer Anweisungen in Webseiten, Dokumenten oder anderen Datenquellen, die von einem KI-Agenten verarbeitet werden. Ziel ist es, die ursprünglichen Vorgaben der KI zu überschreiben oder unerwünschte Aktionen auszulösen.
Je mehr Aufgaben ein KI-Agent selbstständig übernimmt, desto relevanter wird dieses Risiko. Besonders betroffen sind Systeme, die Webseiten durchsuchen, Dokumente analysieren oder auf externe Werkzeuge zugreifen.
Anthropic veröffentlicht konkrete Angriffszahlen
Der aktuelle Sicherheitsbericht von Anthropic fällt vor allem durch seinen Umfang auf. Das Unternehmen beschreibt mehrere Einsatzbereiche getrennt voneinander und veröffentlicht konkrete Erfolgsquoten für verschiedene Angriffsszenarien.
Besonders auffällig ist dabei die Browser-Umgebung. Dort testeten externe Sicherheitsexperten zahlreiche Angriffsmethoden gegen unterschiedliche Modellversionen. Die Ergebnisse zeigen, dass die Erfolgsraten je nach Schutzmechanismus und Konfiguration stark variieren können.
Für Sicherheitsverantwortliche sind solche Daten wertvoll, weil sie erstmals eine konkrete Einschätzung der Risiken ermöglichen.
Der Vergleich mit anderen Anbietern bleibt schwierig
Genau hier beginnt allerdings das eigentliche Problem. Andere Anbieter veröffentlichen ihre Ergebnisse oft in völlig anderer Form.
OpenAI beschreibt die Widerstandsfähigkeit seiner Modelle beispielsweise über sogenannte Robustness-Scores. Google verweist auf allgemeine Sicherheitsmaßnahmen und Red-Teaming-Prozesse. Meta wiederum veröffentlicht Daten zu Schutzsystemen und Benchmarks, aber nicht direkt zu einzelnen Modellumgebungen.
Dadurch entstehen Zahlen, die auf den ersten Blick vergleichbar wirken, in Wirklichkeit aber unterschiedliche Tests, Angriffsmethoden und Einsatzbereiche abbilden.
Ein Wert aus einer Browser-Umgebung lässt sich nicht automatisch mit einem Connector-Test oder einem Benchmark für Agentensysteme vergleichen.
Ein Standard fehlt bislang
Die Diskussion erinnert an die frühen Jahre der Cybersicherheit, als Hersteller eigene Kennzahlen nutzten und ein direkter Vergleich kaum möglich war.
Bei KI-Systemen existiert bislang kein allgemein akzeptierter Standard für die Messung von Prompt-Injection-Risiken. Jeder Anbieter definiert Testverfahren, Angreifermodelle und Bewertungskriterien weitgehend selbst.
Für Unternehmen bedeutet das: Die veröffentlichten Zahlen liefern wichtige Hinweise, ersetzen aber keine eigene Sicherheitsprüfung.
Warum das Thema wichtiger wird
Mit der zunehmenden Verbreitung autonomer KI-Agenten wächst auch die Bedeutung solcher Angriffe. Systeme, die eigenständig recherchieren, Dateien verarbeiten oder Aktionen ausführen können, eröffnen neue Möglichkeiten – aber auch neue Angriffsflächen.
Die aktuellen Veröffentlichungen zeigen deshalb weniger, welches Modell am sichersten ist. Sie zeigen vielmehr, dass die Branche noch nach einer gemeinsamen Sprache sucht, um Risiken überhaupt vergleichbar zu machen.
Solange einheitliche Standards fehlen, bleibt jede veröffentlichte Sicherheitszahl vor allem eines: ein Einblick in die Testmethodik des jeweiligen Herstellers.
📂
Kategorie
KI
Künstliche Intelligenz, große Sprachmodelle, Bildgeneratoren und was sie wirklich können – und was nicht.