Sprache auswählen

German

Down Icon

Land auswählen

America

Down Icon

Das Interpretable AI-Playbook: Was die Forschung von Anthropic für Ihre LLM-Strategie im Unternehmen bedeutet

Das Interpretable AI-Playbook: Was die Forschung von Anthropic für Ihre LLM-Strategie im Unternehmen bedeutet

Nehmen Sie an der Veranstaltung teil, der Unternehmensführer seit fast zwei Jahrzehnten vertrauen. VB Transform bringt die Menschen zusammen, die eine echte KI-Strategie für Unternehmen entwickeln. Mehr erfahren

Dario Amodei, CEO von Anthropic , betonte im April eindringlich die Notwendigkeit, die Denkweise von KI-Modellen zu verstehen.

Dies geschieht zu einem entscheidenden Zeitpunkt. Da Anthropic in globalen KI-Rankings kämpft , ist es wichtig zu wissen, was es von anderen führenden KI-Laboren unterscheidet. Seit seiner Gründung im Jahr 2021, als sieben OpenAI -Mitarbeiter aufgrund von Bedenken hinsichtlich der KI-Sicherheit ausstiegen , hat Anthropic KI-Modelle entwickelt, die einer Reihe von menschlich geschätzten Prinzipien folgen – einem System, das sie „Constitutional AI“ nennen. Diese Prinzipien stellen sicher, dass die Modelle „ hilfreich, ehrlich und harmlos “ sind und grundsätzlich im besten Interesse der Gesellschaft handeln. Gleichzeitig erforscht der Forschungszweig von Anthropic eingehend , wie seine Modelle über die Welt denken und warum sie hilfreiche (und manchmal auch schädliche) Antworten produzieren.

Anthropics Flaggschiff-Modell, Claude 3.7 Sonnet, dominierte bei seiner Veröffentlichung im Februar die Programmier-Benchmarks und bewies, dass KI-Modelle sowohl in puncto Leistung als auch Sicherheit herausragend sein können. Und die kürzliche Veröffentlichung von Claude 4.0 Opus und Sonnet bringt Claude erneut an die Spitze der Programmier-Benchmarks . Im heutigen schnellen und hart umkämpften KI-Markt haben Anthropics Konkurrenten wie Googles Gemini 2.5 Pro und Open AIs o3 jedoch ihre eigenen beeindruckenden Programmierkenntnisse vorzuweisen und übertreffen Claude bereits in Mathematik, kreativem Schreiben und allgemeinem Denken in vielen Sprachen.

Wenn Amodeis Überlegungen ein Hinweis sind, plant Anthropic die Zukunft der KI und ihre Auswirkungen auf kritische Bereiche wie Medizin, Psychologie und Recht, wo Modellsicherheit und menschliche Werte unerlässlich sind. Und das zeigt sich: Anthropic ist das führende KI-Labor, das sich ausschließlich auf die Entwicklung „interpretierbarer“ KI konzentriert. Das sind Modelle, die uns mit einem gewissen Grad an Sicherheit verstehen lassen, was das Modell denkt und wie es zu einer bestimmten Schlussfolgerung gelangt.

Amazon und Google haben bereits Milliarden von Dollar in Anthropic investiert, während sie gleichzeitig ihre eigenen KI-Modelle entwickeln. Anthropics Wettbewerbsvorteil steckt also möglicherweise noch in den Kinderschuhen. Interpretierbare Modelle könnten, wie Anthropic vorschlägt, die langfristigen Betriebskosten für Debugging, Auditing und Risikominimierung bei komplexen KI-Implementierungen deutlich senken.

Sayash Kapoor , ein KI-Sicherheitsforscher, weist darauf hin, dass Interpretierbarkeit zwar wertvoll, aber nur eines von vielen Instrumenten zur Bewältigung von KI-Risiken sei. Seiner Ansicht nach ist „Interpretierbarkeit weder notwendig noch ausreichend“, um die Sicherheit von Modellen zu gewährleisten – sie ist am wichtigsten, wenn sie mit Filtern, Verifizierern und einem menschenzentrierten Design kombiniert wird. Diese umfassendere Sichtweise betrachtet Interpretierbarkeit als Teil eines größeren Ökosystems von Kontrollstrategien, insbesondere bei realen KI-Einsätzen, bei denen Modelle Komponenten umfassenderer Entscheidungssysteme sind.

Bis vor Kurzem dachten viele, KI sei noch Jahre von Fortschritten entfernt, wie sie Claude, Gemini und ChatGPT heute zu einer außergewöhnlichen Marktakzeptanz verhelfen . Obwohl diese Modelle bereits die Grenzen des menschlichen Wissens erweitern , ist ihre weite Verbreitung darauf zurückzuführen, wie gut sie eine Vielzahl praktischer Probleme lösen, die kreative Problemlösungen oder detaillierte Analysen erfordern. Da Modelle bei zunehmend kritischen Problemen zum Einsatz kommen, ist es wichtig, dass sie präzise Antworten liefern.

Amodei befürchtet, dass wir, wenn eine KI auf eine Aufforderung reagiert, „keine Ahnung haben, warum sie bestimmte Wörter anderen vorzieht oder warum sie trotz ihrer normalerweise korrekten Antworten gelegentlich einen Fehler macht“. Solche Fehler – Halluzinationen ungenauer Informationen oder Antworten, die nicht mit menschlichen Werten übereinstimmen – werden KI-Modelle daran hindern, ihr volles Potenzial zu entfalten. Tatsächlich gibt es viele Beispiele dafür, dass KI weiterhin mit Halluzinationen und unethischem Verhalten zu kämpfen hat.

Für Amodei besteht der beste Weg, diese Probleme zu lösen, darin, zu verstehen, wie eine KI denkt: „Unsere Unfähigkeit, die internen Mechanismen von Modellen zu verstehen, bedeutet, dass wir solche [schädlichen] Verhaltensweisen nicht sinnvoll vorhersagen können und es daher schwer haben, sie auszuschließen … Wenn es stattdessen möglich wäre, in die Modelle hineinzuschauen, könnten wir möglicherweise alle Jailbreaks systematisch blockieren und auch charakterisieren, über welches gefährliche Wissen die Modelle verfügen.“

Amodei sieht in der Intransparenz aktueller Modelle zudem ein Hindernis für den Einsatz von KI-Modellen in „finanziell oder sicherheitskritischen Umgebungen mit hohem Risiko, da wir ihrem Verhalten keine genauen Grenzen setzen können und eine kleine Anzahl von Fehlern sehr schädlich sein könnte.“ Bei Entscheidungen, die Menschen direkt betreffen, wie etwa bei medizinischen Diagnosen oder der Bewertung von Hypothekendarlehen, verlangen gesetzliche Bestimmungen , dass KI ihre Entscheidungen erklärt.

Stellen Sie sich ein Finanzinstitut vor, das ein großes Sprachmodell (LLM) zur Betrugserkennung nutzt – Interpretierbarkeit könnte bedeuten, einem Kunden einen abgelehnten Kreditantrag wie gesetzlich vorgeschrieben zu erklären. Oder ein Fertigungsunternehmen, das Lieferketten optimiert – das Verständnis, warum eine KI einen bestimmten Lieferanten vorschlägt, könnte Effizienzsteigerungen ermöglichen und unvorhergesehene Engpässe vermeiden.

Aus diesem Grund, erklärt Amodei, „legt Anthropic den Schwerpunkt verstärkt auf die Interpretierbarkeit und unser Ziel ist es, bis 2027 zu erreichen, dass die Interpretierbarkeit die meisten Modellprobleme zuverlässig erkennen kann.“

Zu diesem Zweck beteiligte sich Anthropic kürzlich mit 50 Millionen US- Dollar an Goodfire , einem KI-Forschungslabor, das bahnbrechende Fortschritte bei der Entwicklung von KI-„Gehirnscans“ erzielt. Die Modellinspektionsplattform Ember ist ein agnostisches Tool, das erlernte Konzepte in Modellen identifiziert und deren Manipulation ermöglicht. In einer aktuellen Demo zeigte das Unternehmen, wie Ember einzelne visuelle Konzepte innerhalb einer KI zur Bildgenerierung erkennt und Benutzer diese Konzepte anschließend auf eine Leinwand übertragen kann, um neue Bilder zu generieren, die dem Design des Benutzers entsprechen.

Anthropics Investition in Ember deutet darauf hin, dass die Entwicklung interpretierbarer Modelle so schwierig ist, dass Anthropic nicht über die nötigen Arbeitskräfte verfügt, um die Interpretierbarkeit allein zu erreichen. Kreative interpretierbare Modelle erfordern neue Toolchains und qualifizierte Entwickler, um sie zu erstellen.

Größerer Kontext: Die Perspektive eines KI-Forschers

Um Amodeis Perspektive zu erläutern und den dringend benötigten Kontext hinzuzufügen, interviewte VentureBeat Kapoor, einen KI-Sicherheitsforscher in Princeton. Kapoor ist Co-Autor des Buches „AI Snake Oil“ , einer kritischen Auseinandersetzung mit übertriebenen Behauptungen über die Fähigkeiten führender KI-Modelle. Er ist außerdem Co-Autor von „AI as Normal Technology “, in dem er dafür plädiert, KI als standardisiertes, transformatives Werkzeug wie das Internet oder Elektrizität zu betrachten, und eine realistische Perspektive auf ihre Integration in Alltagssysteme vertritt.

Kapoor bestreitet nicht, dass Interpretierbarkeit wertvoll ist. Er ist jedoch skeptisch, sie als zentrale Säule der KI-Ausrichtung zu betrachten. „Es ist kein Allheilmittel“, sagte Kapoor gegenüber VentureBeat. Viele der effektivsten Sicherheitstechniken, wie beispielsweise die Post-Response-Filterung, erfordern überhaupt keine Öffnung des Modells, sagte er.

Er warnt auch vor dem, was Forscher den „Irrtum der Undurchschaubarkeit“ nennen – der Vorstellung, dass wir ein System nicht verantwortungsvoll nutzen oder regulieren können, wenn wir dessen Innenleben nicht vollständig verstehen. In der Praxis werden die meisten Technologien nicht anhand vollständiger Transparenz bewertet. Entscheidend ist, ob ein System unter realen Bedingungen zuverlässig funktioniert.

Es ist nicht das erste Mal, dass Amodei vor den Risiken warnt, dass die KI unser Verständnis überholt. In seinemBeitrag „Machines of Loving Grace“ vom Oktober 2024 skizzierte er die Vision zunehmend leistungsfähigerer Modelle, die in der realen Welt sinnvolle Aktionen ausführen (und möglicherweise unsere Lebenserwartung verdoppeln) könnten.

Laut Kapoor ist hier ein wichtiger Unterschied zwischen der Leistungsfähigkeit und der Leistungsfähigkeit eines Modells zu beachten. Die Leistungsfähigkeit von Modellen nimmt zweifellos rasant zu und könnte bald intelligent genug sein, um Lösungen für viele komplexe Probleme zu finden, vor denen die Menschheit heute steht. Die Leistungsfähigkeit eines Modells hängt jedoch von den Schnittstellen ab, die wir ihm für die Interaktion mit der realen Welt bereitstellen, einschließlich der Frage, wo und wie Modelle eingesetzt werden.

Amodei argumentierte zudem, dass die USA ihre Führungsrolle in der KI-Entwicklung behalten sollten, unter anderem durch Exportkontrollen , die den Zugang zu leistungsstarken Modellen einschränken. Die Idee dahinter ist, dass autoritäre Regierungen bahnbrechende KI-Systeme unverantwortlich nutzen oder den geopolitischen und wirtschaftlichen Vorteil nutzen könnten, der sich durch deren Ersteinsatz ergibt.

Kapoor meint: „Selbst die größten Befürworter von Exportkontrollen sind sich einig, dass uns das höchstens ein oder zwei Jahre Zeit lässt.“ Er ist der Meinung, wir sollten KI als „normale Technologie “ wie Elektrizität oder das Internet behandeln. Obwohl revolutionär, dauerte es Jahrzehnte, bis beide Technologien in der Gesellschaft voll angekommen waren. Kapoor sieht das Gleiche auch bei KI: Der beste Weg, geopolitisch die Nase vorn zu behalten, besteht darin, sich auf die langfristige Transformation der Industrien zu konzentrieren, um KI effektiv zu nutzen.

Kapoor ist nicht der Einzige, der Amodeis Haltung kritisiert. Letzte Woche erklärte Jansen Huang, CEO von Nvidia, auf der VivaTech in Paris, dass er Amodeis Ansichten nicht teile . Huang stellte die Frage, ob die Befugnis zur Entwicklung künstlicher Intelligenz auf wenige mächtige Unternehmen wie Anthropic beschränkt sein sollte. Er sagte: „Wenn Sie wollen, dass Dinge sicher und verantwortungsvoll erledigt werden, tun Sie es offen … Tun Sie es nicht in einem dunklen Raum und erzählen Sie mir, es sei sicher.“

Anthropic erklärte daraufhin: „Dario hat nie behauptet, dass ‚nur Anthropic‘ sichere und leistungsstarke KI entwickeln könne. Wie die öffentlichen Aufzeichnungen zeigen, hat sich Dario für einen nationalen Transparenzstandard für KI-Entwickler (einschließlich Anthropic) eingesetzt, damit die Öffentlichkeit und die politischen Entscheidungsträger über die Möglichkeiten und Risiken der Modelle informiert sind und sich entsprechend vorbereiten können.“

Es ist auch erwähnenswert, dass Anthropic mit seinem Streben nach Interpretierbarkeit nicht allein ist: Auch Googles DeepMind-Interpretierbarkeitsteam unter der Leitung von Neel Nanda hat wichtige Beiträge zur Interpretierbarkeitsforschung geleistet.

Führende KI-Labore und -Forscher liefern überzeugende Belege dafür, dass Interpretierbarkeit ein entscheidendes Unterscheidungsmerkmal im wettbewerbsintensiven KI-Markt sein könnte. Unternehmen, die frühzeitig Interpretierbarkeit priorisieren, können sich durch den Aufbau zuverlässigerer, konformerer und anpassungsfähigerer KI-Systeme einen deutlichen Wettbewerbsvorteil verschaffen.

Tägliche Einblicke in Geschäftsanwendungsfälle mit VB Daily

Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.

Lesen Sie unsere Datenschutzrichtlinie

Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .

Ein Fehler ist aufgetreten.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow