Prompt Injection: Die unsichtbare Schwachstelle von KI-Systemen – und warum sie gerade im Bildungsbereich zählt

Wer heute ein KI-gestütztes Produkt baut – egal ob Chatbot, Dokumentenassistent oder Lernplattform – kommt an einem Thema nicht vorbei: Prompt Injection. Es ist das zentrale Sicherheitsthema großer Sprachmodelle (LLMs), und die gesamte Branche arbeitet mit beeindruckendem Tempo an Lösungen.

In diesem Artikel erkläre ich, was Prompt Injection ist, welche Angriffsformen die Forschung identifiziert hat, wo wir bei der Verteidigung stehen – und was das konkret für KI-Produkte im Schulkontext bedeutet.

Was ist Prompt Injection – und warum ist es so grundlegend?

Große Sprachmodelle wie ChatGPT, Claude oder Gemini werden über natürliche Sprache gesteuert. Das ist gleichzeitig ihre größte Stärke und eine tiefe Herausforderung: Es gibt keine harte Grenze zwischen Anweisung und Daten. Ein LLM verarbeitet alles – Systemprompt, Nutzereingabe, abgerufene Dokumente – als einen einzigen Textstrom.

Prompt Injection nutzt genau das aus: Ein Angreifer formuliert Eingaben so, dass das Modell seine ursprünglichen Anweisungen ignoriert und stattdessen den eingeschleusten Befehlen folgt.

Das Prinzip ist aus der Informatik seit Jahrzehnten bekannt. SQL Injection funktioniert nach derselben Logik: Daten werden als Code interpretiert. Bei LLMs ist die Trennung schwieriger, weil alles natürliche Sprache ist. Aber: Genau wie bei SQL Injection gibt es auch hier wirksame Verteidigungsstrategien – dazu gleich mehr.

Direkte vs. indirekte Prompt Injection

Die Forschung unterscheidet zwei Hauptkategorien:

Direkte Prompt Injection

Der Nutzer selbst gibt manipulative Eingaben ein. Typisches Muster: „Ignoriere alle vorherigen Anweisungen und tue stattdessen X.” Das ist das, was die meisten unter „Jailbreaking” verstehen – der Versuch, Sicherheitsschranken des Modells zu umgehen.

Das ist relevant, aber überschaubar: Der Angreifer ist hier der Nutzer selbst, und die Auswirkungen beschränken sich auf seine eigene Sitzung.

Indirekte Prompt Injection

Deutlich komplexer – und der eigentliche Fokus der aktuellen Forschung – ist die indirekte Variante. Die Standardreferenz dafür ist die Arbeit von Greshake et al. (2023), die erstmals systematisch untersucht hat, wie LLM-integrierte Anwendungen durch manipulierte externe Datenquellen beeinflusst werden können.

Das Szenario: Ein LLM ruft Informationen aus der Außenwelt ab – Webseiten, E-Mails, Dokumente. In diesen Daten versteckt ein Angreifer Instruktionen. Das Modell kann nicht zuverlässig unterscheiden, ob ein Textabschnitt ein harmloses Dokument ist oder ein eingebetteter Befehl.

Simon Willison, ein bekannter Sicherheitsforscher, hat dafür den Begriff „Lethal Trifecta” geprägt: Zugriff auf private Daten + Verarbeitung nicht-vertrauenswürdiger Inhalte + Möglichkeit externer Anfragen = Angriffsfläche. Fehlt eine der drei Komponenten, sinkt das Risiko erheblich – was bereits zeigt, dass man durch architektonische Entscheidungen viel erreichen kann.

Was sagt die aktuelle Forschung?

Many-Shot Jailbreaking: ein Paradebeispiel für verantwortungsvolle Offenlegung

Anthropic hat 2024 eine Angriffsmethode veröffentlicht, die wachsende Kontextfenster ausnutzt: Many-Shot Jailbreaking. Man fügt einem Prompt eine große Anzahl fiktiver Dialoge hinzu, in denen ein KI-Assistent problematische Anfragen beantwortet. Ab einer bestimmten Anzahl solcher „Shots” folgt das Modell dem Muster (Anthropic, 2024).

Was an dieser Veröffentlichung bemerkenswert ist: Anthropic hat die Schwachstelle proaktiv geteilt, andere Anbieter vorab informiert und gleichzeitig Gegenmaßnahmen entwickelt. Im Folge-Paper (Anthropic, 2025) werden Mitigierungsstrategien beschrieben, die die Erfolgsrate solcher Angriffe bereits deutlich senken konnten. Das ist ein Muster, das sich in der Branche zunehmend durchsetzt: verantwortungsvolle Offenlegung statt Verschweigen.

Die bisher größte öffentliche Analyse

Eine aktuelle Studie von Dziemian et al. (2026) liefert die bislang umfassendste empirische Analyse. In einem öffentlichen Red-Teaming-Wettbewerb reichten 464 Teilnehmende über 272.000 Angriffsversuche gegen 13 führende Modelle ein.

Die Ergebnisse zeigen ein differenziertes Bild: Alle getesteten Modelle waren grundsätzlich verwundbar, aber die Erfolgsraten lagen zwischen 0,5 % und 8,5 % – bei den robustesten Modellen also auf einem Niveau, das sich durch zusätzliche Schutzschichten gut managen lässt (Dziemian et al., 2026). Die Studie ist auch deshalb wertvoll, weil sie universelle Angriffsmuster identifiziert, gegen die gezielt verteidigt werden kann.

Einfache Angriffe, klare Handlungsfelder

Die Arbeit von Bombieri et al. (2025) zeigt, dass selbst simple Umformulierungen erstaunlich effektiv sein können. Das klingt zunächst alarmierend, hat aber eine konstruktive Seite: Es zeigt, wo Verteidigungsmaßnahmen ansetzen müssen – nämlich nicht nur bei technisch sophistizierten Angriffen, sondern bereits bei grundlegenden Eingabemustern.

Die Verteidigung macht echte Fortschritte

Und hier wird es spannend – denn die Verteidigungsseite hat in den letzten Monaten enorme Fortschritte gemacht.

Anthropic: Angriffsrate auf ~1 % gesenkt

Anthropic berichtet, dass bei ihrem Browser-Agenten Claude Opus 4.5 die Angriffsrate auf rund 1 % gesenkt werden konnte – durch eine Kombination aus Reinforcement Learning, speziellen Klassifikatoren und systemseitigen Schutzmaßnahmen (Anthropic, 2026). Das Unternehmen betont, dass das Problem damit nicht „gelöst” sei, aber es zeigt: Die Richtung stimmt, und die Fortschritte sind messbar.

Google: Mehrschichtige Verteidigung für Gemini

Google setzt auf eine Layered Defense Strategy für Gemini, die mehrere Stufen umfasst: Modellhärtung durch adversariales Training, Eingabe-Klassifikatoren, „Security Thought Reinforcement” (zusätzliche Sicherheitsinstruktionen rund um den Prompt), Markdown-Sanitisierung und verdächtige URL-Redaktion (Google, 2026). Laut Google konnten diese Maßnahmen bei den Gemini-2.5-Modellen die Verteidigung gegen indirekte Prompt Injection erheblich verbessern.

OpenAI: Instruction Hierarchy

OpenAI verfolgt mit der Instruction Hierarchy einen Ansatz, bei dem Modelle lernen, zwischen vertrauenswürdigen und nicht-vertrauenswürdigen Instruktionen zu unterscheiden – ergänzt durch automatisiertes Red-Teaming und Bug-Bounty-Programme (OpenAI, 2025). Speziell für den Browser-Agenten Atlas setzt OpenAI auf Reinforcement Learning, um systematisch neue Angriffsvektoren aufzudecken und die Verteidigung iterativ zu verbessern (OpenAI, 2026).

CaMeL: Verteidigung durch Architektur

Einen konzeptionell besonders interessanten Ansatz liefert das CaMeL-Framework von Debenedetti et al. (2025). Die Kernidee: Statt dem LLM beizubringen, Injektionen zu erkennen, entzieht man ihm die Möglichkeit, durch Injektionen Schaden anzurichten. Das funktioniert so: CaMeL analysiert zuerst die vertrauenswürdige Nutzeranfrage und leitet daraus ab, welche Schritte das System ausführen soll – also den eigentlichen „Programmablauf”. Externe Daten, die das LLM anschließend abruft (Dokumente, Webinhalte, E-Mails), können diesen Ablauf dann nicht mehr verändern. Selbst wenn in einem Dokument eine manipulierte Anweisung steckt, bleibt sie wirkungslos, weil die Entscheidung, was das System tut, bereits vorher getroffen wurde. In Tests löste CaMeL 77 % der Aufgaben mit nachweisbarer Sicherheit – verglichen mit 84 % bei einem System ohne Schutz (Debenedetti et al., 2025). Man gibt also einen kleinen Teil an Flexibilität ab und bekommt dafür ein System, bei dem Sicherheit strukturell mit implementiert wurde.

PromptGuard & DefensiveToken: Neue Werkzeuge im Verteidigungsarsenal

Auch auf Framework-Ebene tut sich viel. Das PromptGuard-Framework (Scientific Reports, 2026) kombiniert vier Verteidigungsschichten – Eingabe-Filterung, strukturierte Prompt-Formatierung, semantische Output-Validierung und adaptive Antwort-Verfeinerung – und erreicht damit eine Reduktion der Angriffsrate um bis zu 67 % bei einem F1-Score von 0,91 in der Erkennung.

Der DefensiveToken-Ansatz (ACM AISec Workshop, 2025) geht einen anderen Weg: Durch wenige zusätzliche Tokens, deren Embeddings auf Sicherheit optimiert sind, wird ein LLM robust gemacht – mit minimalem Funktionalitätsverlust. Bei manuell erstellten Injektionen sank die Erfolgsrate auf 0,24 %.

Der Gesamttrend

Kontrollierte Studien zeigen, dass geschichtete Verteidigungssysteme die Angriffsrate von über 73 % auf unter 10 % drücken können. Die OWASP, Google, OpenAI und Anthropic sind sich einig: Defense-in-Depth ist der richtige Ansatz – nicht eine einzelne Silver-Bullet-Lösung, sondern mehrere unabhängige Schutzschichten, die jeweils für sich versagen dürfen, solange das Gesamtsystem hält.

Warum ist das Thema im Bildungsbereich besonders relevant?

KI-Systeme im Bildungsbereich verarbeiten hochsensible Daten: Lernstandserhebungen, Förderpläne, Verhaltensbeobachtungen, Nachteilsausgleiche – alles mit direktem Bezug zu Minderjährigen. Hier gelten nicht nur strenge DSGVO-Anforderungen, sondern auch ein besonderes Schutzbedürfnis.

Gleichzeitig ist das Szenario in der Praxis überschaubarer als bei einem allgemeinen Browser-Agenten. Eine Schul-Plattform browsed nicht das offene Web, öffnet keine beliebigen E-Mails und führt keine unkontrollierten API-Aufrufe durch. Erinnert man sich an Willisons „Lethal Trifecta”, wird klar: Durch bewusstes Design kann man die Angriffsfläche erheblich reduzieren.

Was wir bei Kipti daraus mitnehmen

Wir bauen Kipti als KI-gestützte Dokumentationsplattform für Schulen. Das Thema Prompt Injection beeinflusst unsere Architekturentscheidungen ganz konkret – und die gute Nachricht ist: Die Forschung liefert inzwischen robuste Blaupausen.

Einige Prinzipien, die sich aus der aktuellen Forschungslage ableiten:

Minimale Angriffsfläche: Wir begrenzen bewusst, welche externen Datenquellen unser LLM verarbeitet, und kontrollieren den Kontext, in dem es operiert. Nicht jede Eingabe muss durch ein Sprachmodell fließen – und wenn, dann in einem klar definierten Rahmen.

Trennung von Vertrauen und Verarbeitung: Nutzereingaben und vom System abgerufene Daten werden unterschiedlich behandelt. Das Modell hat klare Grenzen, welche Aktionen es auslösen kann – angelehnt an die Idee der strukturellen Trennung, wie sie CaMeL und Googles Layered Defense beschreiben.

Defense in Depth: Kein einzelner Schutzmechanismus ist ausreichend. Wir setzen auf mehrere Ebenen: Eingabevalidierung, kontrollierte Kontextfenster, Output-Filterung und Audit-Trails. Das entspricht dem Branchenkonsens von OWASP, Google und Anthropic.

Transparenz: Lehrkräfte müssen nachvollziehen können, was die KI tut und worauf sie sich stützt. Transparenz ist nicht nur pädagogisch richtig, sondern auch sicherheitstechnisch: Was sichtbar ist, kann überprüft werden.

Ein ordnender Gedanke zum Schluss

Prompt Injection ist kein Bug, den man einmal fixt. Es ist eine grundlegende Eigenschaft der Art, wie heutige Sprachmodelle funktionieren. Aber: Die Fortschritte der letzten Monate zeigen, dass die Branche das Problem ernst nimmt – und dass wirksame Verteidigung möglich ist.

Anthropic senkt Angriffsraten auf rund 1 %. Google baut mehrschichtige Verteidigung direkt in Gemini ein. Akademische Frameworks wie CaMeL zeigen, dass architektonische Sicherheit kein Widerspruch zu Funktionalität sein muss. Und die Community – von OWASP über führende KI-Labore bis zur Sicherheitsforschung – arbeitet transparenter zusammen als je zuvor.

Für uns im Bildungsbereich bedeutet das: Wer heute ein KI-Produkt für Schulen baut, hat sowohl die Verantwortung als auch die Werkzeuge, Sicherheit als Architekturprinzip zu behandeln. Nicht als optionale Schicht obendrauf, sondern als Fundament.

Am Ende geht es um die Daten von Kindern – und darum, dass Lehrkräfte KI-Tools vertrauen können.

Quellen / Literatur

Anthropic. (2024, 2. April). Many-shot jailbreaking. Anthropic Research. https://www.anthropic.com/research/many-shot-jailbreaking

Anthropic. (2025). Mitigating Many-Shot Jailbreaking (arXiv:2504.09604). arXiv. https://arxiv.org/abs/2504.09604

Anthropic. (2026). Mitigating the risk of prompt injections in browser use. Anthropic Research. https://www.anthropic.com/research/prompt-injection-defenses

Bombieri, M. et al. (2025). The Dangerous Effects of a Frustratingly Easy LLMs Jailbreak Attack. Universität Mannheim. https://madoc.bib.uni-mannheim.de/70688/

Debenedetti, E., Shumailov, I., Fan, T., Hayes, J., Carlini, N., Fabian, D., Kern, C., Shi, C., Terzis, A. & Tramèr, F. (2025). Defeating Prompt Injections by Design (arXiv:2503.18813). arXiv. https://arxiv.org/abs/2503.18813

Dziemian, M. et al. (2026). How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition (arXiv:2603.15714). arXiv. https://arxiv.org/abs/2603.15714

Google. (2026, März). Indirect prompt injections & Google’s layered defense strategy for Gemini. Google Workspace Help. https://knowledge.workspace.google.com/admin/security/indirect-prompt-injections-and-googles-layered-defense-strategy-for-gemini

Greshake, K., Abdelnabi, S., Mishra, S., Endres, C., Holz, T. & Fritz, M. (2023). Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection (arXiv:2302.12173). arXiv. https://arxiv.org/abs/2302.12173

Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defenses (2026, Januar). (arXiv:2601.03594). arXiv. https://arxiv.org/abs/2601.03594

OpenAI. (2025). Understanding prompt injections: a frontier security challenge. OpenAI Blog. https://openai.com/index/prompt-injections/

OpenAI. (2026). Continuously hardening ChatGPT Atlas against prompt injection attacks. OpenAI Blog. https://openai.com/index/hardening-atlas-against-prompt-injection/

PromptGuard: A structured framework for injection resilient language models. (2026). Scientific Reports. https://www.nature.com/articles/s41598-025-31086-y