Vertrauen in agentenbasierte KI: Warum die Evaluierungsinfrastruktur an erster Stelle stehen muss

Mit dem Einzug von KI-Agenten in die Praxis stehen Unternehmen unter Druck, ihren Platz im Unternehmen zu finden, ihre effektive Entwicklung zu etablieren und sie in großem Maßstab zu operationalisieren. Auf der Transform 2025 von VentureBeat trafen sich führende Technologieunternehmen, um darüber zu sprechen, wie sie ihr Geschäft mit Agenten transformieren: Joanne Chen, General Partner bei Foundation Capital; Shailesh Nalawadi, VP für Projektmanagement bei Sendbird; Thys Waanders, SVP für KI-Transformation bei Cognigy; und Shawn Malhotra, CTO von Rocket Companies.
„Der anfängliche Reiz dieser KI-Agenten-Einsätze liegt in der Einsparung von Humankapital – die Rechnung ist recht einfach“, sagte Nalawadi. „Das unterschätzt jedoch die transformativen Fähigkeiten, die KI-Agenten bieten.“
Bei Rocket haben sich KI-Agenten als leistungsstarke Tools zur Steigerung der Website-Konvertierung erwiesen.
„Wir haben festgestellt, dass die Wahrscheinlichkeit einer Konvertierung bei Kunden, die über diesen Kanal kommen, mit unserer agentenbasierten Erfahrung und dem Gesprächserlebnis auf der Website dreimal höher ist“, sagte Malhotra.
Aber das ist nur die Spitze des Eisbergs. Ein Rocket-Ingenieur hat beispielsweise in nur zwei Tagen einen Agenten entwickelt, der eine hochspezialisierte Aufgabe automatisiert: die Berechnung der Übertragungssteuern bei der Hypothekenvergabe.
„Dieser zweitägige Aufwand hat uns jährlich eine Million Dollar an Kosten gespart“, sagte Malhotra. „Im Jahr 2024 haben wir mehr als eine Million Arbeitsstunden unserer Teammitglieder eingespart, hauptsächlich dank unserer KI-Lösungen. Das spart nicht nur Kosten. Es ermöglicht unseren Teammitgliedern auch, sich auf die Menschen zu konzentrieren, die die oft größte Finanztransaktion ihres Lebens tätigen.“
Agenten sind im Grunde genommen die Verstärkung einzelner Teammitglieder. Diese Millionen eingesparten Stunden entsprechen nicht der gesamten Arbeit, die ein Mitarbeiter mehrfach erledigt. Es sind Bruchteile der Arbeit, die den Mitarbeitern keine Freude bereiten oder die für den Kunden keinen Mehrwert bieten. Und diese Millionen eingesparten Stunden geben Rocket die Kapazität, mehr Aufträge abzuwickeln.
„Einige unserer Teammitglieder konnten im letzten Jahr 50 % mehr Kunden betreuen als im Jahr zuvor“, fügte Malhotra hinzu. „Das bedeutet, dass wir einen höheren Durchsatz erzielen, mehr Umsatz generieren und höhere Konversionsraten erzielen können, weil sie sich die Zeit nehmen, die Bedürfnisse der Kunden zu verstehen, anstatt viel Routinearbeit zu erledigen, die jetzt die KI übernehmen kann.“
„Ein Teil der Reise unserer Entwicklungsteams besteht darin, von der Denkweise der Softwareentwicklung – einmal schreiben und testen, und es läuft und liefert tausendmal die gleiche Antwort – zu einem eher probabilistischen Ansatz zu wechseln. Man stellt einem LLM die gleiche Frage, und er liefert mit einer gewissen Wahrscheinlichkeit unterschiedliche Antworten“, sagte Nalawadi. „Vieles davon hat dazu geführt, dass wir Menschen mitgenommen haben. Nicht nur Softwareentwickler, sondern auch Produktmanager und UX-Designer.“
Hilfreich sei die enorme Entwicklung der LLMs, so Waanders. Wenn man vor 18 Monaten oder zwei Jahren etwas entwickelte, musste man unbedingt das richtige Modell wählen, sonst verhielt sich der Agent nicht wie erwartet. Heute, so Waanders, seien wir an einem Punkt angelangt, an dem die meisten gängigen Modelle sehr gut funktionieren. Sie seien vorhersehbarer. Die Herausforderung liege heute jedoch darin, Modelle zu kombinieren, Reaktionsfähigkeit sicherzustellen, die richtigen Modelle in der richtigen Reihenfolge zu orchestrieren und die richtigen Daten einzubinden.
„Wir haben Kunden, die jährlich Millionen von Konversationen abwickeln“, sagte Waanders. „Wenn man beispielsweise 30 Millionen Konversationen pro Jahr automatisiert, wie lässt sich das in der LLM-Welt skalieren? Das waren alles Dinge, die wir herausfinden mussten, einfache Dinge, angefangen bei der Sicherstellung der Modellverfügbarkeit bei den Cloud-Anbietern. Beispielsweise musste ein ausreichendes Kontingent mit einem ChatGPT-Modell sichergestellt werden. Das sind alles Erkenntnisse, die wir und unsere Kunden gewinnen mussten. Es ist eine völlig neue Welt.“
Eine Ebene über der Orchestrierung des LLM sei die Orchestrierung eines Agentennetzwerks, sagte Malhotra. Ein Konversationserlebnis beinhaltet ein Netzwerk von Agenten unter der Haube, und der Orchestrator entscheidet, an welchen der verfügbaren Agenten die Anfrage weitergeleitet wird.
„Wenn man das weiterdenkt und an Hunderte oder Tausende von Agenten denkt, die unterschiedliche Aufgaben übernehmen, ergeben sich einige wirklich interessante technische Probleme“, sagte er. „Es wird immer schwieriger, weil Latenz und Zeit eine Rolle spielen. Die Agentenführung wird in den kommenden Jahren ein sehr spannendes Problem sein.“
Bislang bestand der erste Schritt für die meisten Unternehmen, die agentenbasierte KI einführten, in der internen Entwicklung, da es noch keine spezialisierten Tools gab. Durch den Aufbau einer generischen LLM- oder KI-Infrastruktur lässt sich jedoch keine Differenzierung und Wertschöpfung erzielen. Vielmehr benötigt man spezialisiertes Fachwissen, um über den anfänglichen Aufbau hinauszugehen, das Erstellte zu debuggen, zu iterieren und zu verbessern sowie die Infrastruktur zu warten.
„Wir stellen oft fest, dass die erfolgreichsten Gespräche mit potenziellen Kunden von Leuten geführt werden, die bereits etwas intern entwickelt haben“, sagte Nalawadi. „Sie erkennen schnell, dass es zwar in Ordnung ist, eine Version 1.0 zu erreichen, aber angesichts der sich entwickelnden Welt und Infrastruktur sowie des notwendigen Austauschs von Technologien gegen neue Technologien sind sie nicht in der Lage, all diese Dinge zu orchestrieren.“
Theoretisch wird die Komplexität der agentenbasierten KI weiter zunehmen – die Anzahl der Agenten in einem Unternehmen wird steigen, sie werden voneinander lernen, und die Anzahl der Anwendungsfälle wird explodieren. Wie können sich Unternehmen auf diese Herausforderung vorbereiten?
„Das bedeutet, dass die Kontrollmechanismen in Ihrem System stärker beansprucht werden“, so Malhotra. „Bei Prozessen mit Regulierungsprozessen ist ein Mitarbeiter eingebunden, der sicherstellt, dass die Freigabe erfolgt. Sind kritische interne Prozesse oder der Datenzugriff beobachtbar? Sind Warn- und Überwachungssysteme vorhanden, sodass Sie im Fehlerfall sofort Bescheid wissen? Es geht darum, die Erkennung zu verdoppeln, zu verstehen, wo ein Mitarbeiter eingebunden werden muss, und darauf zu vertrauen, dass diese Prozesse im Fehlerfall reagieren. Aber aufgrund der damit verbundenen Möglichkeiten ist es unerlässlich, dies zu tun.“
Wie können Sie also darauf vertrauen, dass sich ein KI-Agent im Laufe seiner Entwicklung zuverlässig verhält?
„Das ist wirklich schwierig, wenn man nicht von Anfang an darüber nachgedacht hat“, sagte Nalawadi. „Kurz gesagt: Bevor Sie überhaupt mit dem Aufbau beginnen, sollten Sie eine Evaluierungsinfrastruktur einrichten. Sorgen Sie für eine rigorose Umgebung, in der Sie wissen, wie ein KI-Agent gut aussieht, und für dieses Testset. Greifen Sie bei Verbesserungen immer wieder darauf zurück. Vereinfacht betrachtet man Evaluierungen als Unit-Tests für Ihr Agentensystem.“
Das Problem sei, dass es nicht deterministisch sei, fügte Waanders hinzu. Unit-Tests seien zwar wichtig, aber die größte Herausforderung bestehe darin, dass man nicht wisse, was man nicht wisse – welches Fehlverhalten ein Agent möglicherweise zeigen könnte und wie er in einer bestimmten Situation reagieren könnte.
„Das lässt sich nur herausfinden, indem man Gespräche im großen Maßstab simuliert, sie Tausenden von verschiedenen Szenarien aussetzt und dann analysiert, wie sie sich halten und wie sie reagieren“, sagte Waanders.
venturebeat