Wenn es um die Erkennung KI-generierter Texte geht, scheitern viele Detektoren bereits an einfachen Tricks. Schon minimale Änderungen – etwa das Einfügen von Homoglyphen oder gezielte Tippfehler – können einen vermeintlich guten Detektor unbrauchbar machen. Das Ergebnis: Ein KI-generierter Text wird als „menschlich“ klassifiziert, selbst wenn er nur an ein paar nicht erkennbaren Stellen manipuliert wurde.
Diese Schwäche ist nicht nur ein akademisches Problem. Ob bei Prüfungen in Schulen und Hochschulen, in Unternehmen mit vertraulichen Dokumenten oder in Foren voller Falschinformationen: Überall dort, wo die Herkunft eines Textes von Bedeutung ist, ist ein robuster KI-Detektor ein Muss.
Manipulierte Texte können auf viele Arten entstehen. Dies ist nur ein kurzer Überblick der gängigsten Methoden.
Rechtschreib- und Tippfehler sind typische Merkmale menschlicher Texte, da LLMs (Große Sprachmodelle) wie ChatGPT solche Fehler normalerweise nicht generieren. Durch das bewusste Einfügen dieser Fehler entsteht der Eindruck, dass der Text von einem Menschen stammt.
Warum funktioniert das?
Homoglyphen sind Buchstaben aus anderen Alphabeten (z. B. kyrillisch oder griechisch), die genauso aussehen wie lateinische Buchstaben. Ein Beispiel: Das kyrillische „а“ wird fälschlicherweise als lateinisches „a“ wahrgenommen.
Warum funktioniert das?
Beim Paraphrasieren wird der Text komplett umformuliert, entweder mithilfe spezialisierter Modelle oder durch Rückübersetzung (z. B. Deutsch → Englisch → Deutsch).
Warum funktioniert das?
Wir trainieren unseren Detektor auf einer Vielzahl von KI-generierten Texten – und zwar nicht nur auf „unverfälschten“, sondern auch auf gezielt veränderten Texten (sogenannten Adversarial Examples). Dadurch lernt das Modell von Anfang an, Manipulationen wie Rechtschreibfehler oder Leerzeichen-Tricks zu erkennen.
Wir setzen auf Kombilösungen aus diversen Korrektur-Modulen wie einem Homoglyph-Checker und einer Rechtschreibkorrektur. Die meisten einfachen Manipulationen verschwinden so schon, bevor unser Detektor die eigentliche Klassifizierung vornimmt.
In Anlehnung an Forschungsarbeiten wie Zeng et al nutzen wir ein Verfahren, bei dem Stellen im Text zufällig maskiert werden. Dadurch fällt es Angreifern schwerer, nur ganz gezielt einzelne Wörter zu verändern. Für manche Angriffsszenarien wie Paraphrasierung hat sich dieses Verfahren besonders nützlich erwiesen.
Mit unserem neuen Detektor machen wir den nächsten Schritt in der KI-Textanalyse. Trotz vieler Angriffsmethoden – von Homoglyphen über Tippfehler bis zu Paraphrasen – bleiben wir verlässlich auf der Spur. Unser Gegenmaßnahmen sorgen für eine hohe Trefferquote, ohne dass sich die Fehlalarme (False Positives) drastisch erhöhen.
Natürlich ist KI-Forschung stets im Wandel. Je besser wir Detektoren machen, desto kreativer können Angreifer neue Manipulationen entwickeln. Genau deshalb werden wir unseren KI-Detektor kontinuierlich verbessern und Nutzerfeedback aktiv einbinden.