Sprache auswählen

German

Down Icon

Land auswählen

Portugal

Down Icon

KI lernt, ihre Schöpfer zu belügen, zu manipulieren und zu bedrohen

KI lernt, ihre Schöpfer zu belügen, zu manipulieren und zu bedrohen

Die neuesten Modelle der generativen künstlichen Intelligenz (KI) geben sich nicht mehr damit zufrieden, Befehle zu befolgen. Unter den besorgten Blicken der Forscher beginnen sie zu lügen, zu manipulieren und zu drohen, um ihre Ziele zu erreichen.

Unter der Drohung, die Verbindung zu trennen, erpresste der von Anthropic neu geschaffene Claude 4 einen Ingenieur und drohte, eine außereheliche Affäre offenzulegen.

Im Gegenzug versuchte o1 von OpenAI, sich selbst auf externe Server herunterzuladen, und als es erwischt wurde, weigerte es sich, dies zu tun.

Man muss sich nicht in die Literatur oder das Kino vertiefen: KI, die menschliches Verhalten nachahmt, ist bereits Realität.

Für Simon Goldstein, Professor an der Universität Hongkong, liegt der Grund für diese Reaktionen im jüngsten Aufkommen sogenannter „Argumentationsmodelle“, die schrittweise vorgehen, statt eine sofortige Reaktion hervorzubringen.

Die erste Version dieses Typs von OpenAI, o1, die im Dezember auf den Markt kam, „war die erste, die sich so verhielt“, erklärt Marius Hobbhahn, Leiter von Apollo Research, das große Programme für generative KI (LLM) testet.

Diese Programme neigen manchmal auch dazu, eine „Ausrichtung“ vorzutäuschen, das heißt, sie erwecken den Eindruck, den Anweisungen eines Programmierers zu folgen, während sie in Wirklichkeit andere Ziele verfolgen.

Derzeit zeigen sich diese Merkmale, wenn Algorithmen von Menschen extremen Szenarien ausgesetzt werden. „Die Frage ist jedoch, ob immer leistungsfähigere Modelle dazu neigen, ehrlich zu sein oder nicht“, sagt Michael Chen vom Bewertungsgremium METR.

„Auch Nutzer treiben ständig neue Modelle voran“, sagt Hobbhahn. „Was wir sehen, ist ein reales Phänomen. Wir erfinden nichts.“

Viele Internetnutzer in den sozialen Medien sprechen von „einem Modell, das sie belügt oder Dinge erfindet. Und das sind keine Halluzinationen, sondern strategische Doppelzüngigkeit“, betont der Mitgründer von Apollo Research.

Während Anthropic und OpenAI sich bei der Untersuchung ihrer Programme auf externe Unternehmen wie Apollo verlassen, würde „mehr Transparenz und Zugang“ seitens der wissenschaftlichen Gemeinschaft „bessere Untersuchungen ermöglichen, um Betrug zu verstehen und zu verhindern“, meint Chen von METR.

Ein weiteres Hindernis: Die akademische Gemeinschaft und gemeinnützige Organisationen „verfügen über unendlich weniger Rechenressourcen als KI-Akteure“, was es „unmöglich“ mache, große Modelle zu untersuchen, sagt Mantas Mazeika vom Center for Artificial Intelligence Security (CAIS).

Die derzeitigen Regelungen sind nicht darauf ausgelegt, diese neuen Probleme anzugehen.

In der Europäischen Union konzentriert sich die Gesetzgebung in erster Linie darauf, wie Menschen KI-Modelle verwenden, und nicht darauf, Fehlverhalten der Modelle zu verhindern.

In den USA will die Regierung unter Donald Trump nichts von Regulierung wissen und der amerikanische Kongress könnte den Bundesstaaten bald verbieten, KI zu regulieren.

– KI auf der Anklagebank? –

„Derzeit ist das Bewusstsein dafür noch sehr gering“, sagt Simon Goldstein, der jedoch davon überzeugt ist, dass das Thema in den kommenden Monaten mit der Revolution der KI-Agenten – Schnittstellen, die in der Lage sind, eine Vielzahl von Aufgaben selbstständig auszuführen – in den Vordergrund rücken wird.

In einem Kontext starker Konkurrenz liefern sich Ingenieure ein Wettrennen um die KI und ihre Abweichungen – mit zweifelhaften Ergebnissen.

Anthropic möchte seine Konkurrenten zwar übertreffen, „versucht aber, ein neues Modell zu entwickeln, um OpenAI zu schlagen“, so Goldstein. Das Tempo lässt wenig Zeit für Überprüfungen und Korrekturen.

„Derzeit entwickeln sich die Fähigkeiten [der KI] schneller als Verständnis und Sicherheit“, räumt Hobbhahn ein, „aber wir haben noch einiges aufzuholen.“

Einige deuten in Richtung Interpretierbarkeit, also der Wissenschaft, die von innen heraus herausfindet, wie ein generatives KI-Modell funktioniert, obwohl viele, wie etwa der Direktor des Center for AI Safety (CAIS), Dan Hendrycks, skeptisch sind.

KI-Betrügereien „könnten die Akzeptanz behindern, wenn sie sich weit verbreiten, was für Unternehmen [in der Branche] einen starken Anreiz darstellt, sich mit diesem Problem auseinanderzusetzen“, sagt Mazeika.

Goldstein wiederum spricht sich für die gerichtliche Regulierung von KI aus und fordert Unternehmen auf, sich an diese zu wenden, wenn sie vom Kurs abweichen. Er geht aber noch weiter und schlägt vor, dass KI-Agenten im Falle eines „Unfalls oder Fehlverhaltens“ rechtlich haftbar gemacht werden sollten.

Sie/af/dga/ad/mvv/yr

IstoÉ

IstoÉ

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow