Wasserzeichen zur KI-Bildbeschriftung lassen sich leicht manipulieren

Informatik
Redaktion der Website für technologische Innovationen - 07.03.2025

Links ist ein reales Bild zu sehen. Die Forscher haben ein semantisches Wasserzeichen darauf angebracht, um zu beweisen, dass es von KI generiert wurde. Das Ergebnis ist rechts zu sehen. Das Wasserzeichen hinterließ praktisch keine Spuren auf dem Bild. [Bild: MS COCO Dataset]
Semantisches Wasserzeichen
Wenn Sie sich auf Wasserzeichen – sichtbare oder unsichtbare Markierungen, die in Bilddateien eingebettet sind – verlassen, um zu überprüfen, ob ein Bild von KI generiert wurde oder nicht, möchten Sie möglicherweise nach neuen Möglichkeiten zur Authentifizierung suchen.
„Wir haben gezeigt, dass Angreifer mit überraschend einfachen Methoden semantische Wasserzeichen fälschen oder vollständig entfernen können“, sagte Andreas Müller von der Ruhr-Universität Bochum.
Sogenannte semantische Wasserzeichen, die tief im Bilderzeugungsprozess selbst eingebettet sind, galten als besonders robust und schwer zu entfernen. Das Team entdeckte jedoch grundlegende Sicherheitslücken in den Techniken zur Erzeugung dieser vermeintlich widerstandsfähigen Wasserzeichen.
Die Forscher entdeckten zwei Angriffsstrategien. Die erste Methode, ein sogenannter Imprinting-Angriff, arbeitet auf der Ebene latenter Repräsentationen, also der zugrundeliegenden digitalen Signatur eines Bildes, mit der KI-Bildgeneratoren arbeiten. Die verborgene Repräsentation eines realen Bildes – sozusagen seine zugrundeliegende digitale Struktur – wird gezielt so verändert, dass sie einem Bild mit einem Wasserzeichen ähnelt.
Dadurch ist es möglich, das Wasserzeichen auf jedes reale Bild zu übertragen, selbst wenn das Referenzbild ursprünglich ausschließlich von KI generiert wurde. Ein Angreifer kann einen KI-Anbieter daher dazu bringen, jedes Bild mit einem Wasserzeichen – und damit künstlich generiert – zu versehen, wodurch reale Bilder faktisch unecht wirken.
„Die zweite Methode, der Recommand-Angriff, nutzt die Möglichkeit, ein mit einem Wasserzeichen versehenes Bild in den latenten Speicher zurückzugeben und es dann mit einem neuen Befehl zu regenerieren. Das Ergebnis sind neu generierte beliebige Bilder, die dasselbe Wasserzeichen tragen“, erklärt Professor Erwin Quiring.

Illustration von Angriffstechniken. [Bild: Andreas Müller et al. (2025)]
Wehrlos
Erschwerend kommt hinzu, dass beide Angriffe nur ein einziges Referenzbild mit dem Zielwasserzeichen benötigen, auf verschiedenen Modellarchitekturen ausgeführt werden können und sowohl mit älteren UNet-basierten Systemen als auch mit neueren Diffusionstransformatoren funktionieren. Diese Flexibilität zwischen den Modellen macht die Schwachstellen besonders besorgniserregend.
Die Auswirkungen dieser Schwachstelle sind laut den Forschern weitreichend: Gegen beide Angriffe gibt es derzeit keine wirksamen Abwehrmaßnahmen. „Daher stellt sich die Frage, wie wir KI-generierte Inhalte künftig sicher kennzeichnen und authentifizieren können“, so Müller. Der aktuelle Ansatz zur semantischen Wasserzeichenkennzeichnung müsse grundlegend überdacht werden, um Vertrauen und Widerstandsfähigkeit langfristig zu gewährleisten.
Artikel: Black-Box-Forgery-Angriffe auf semantische Wasserzeichen für Diffusionsmodelle
Autoren: Andreas Müller, Denis Lukovnikov, Jonas Thietke, Asja Fischer, Erwin QuiringRevista: Proceedings of the 2025 Computer Vision and Pattern RecognitionLink: https://arxiv.org/pdf/2412.03283Weitere Neuigkeiten zu:
inovacaotecnologica