Sprache auswählen

German

Down Icon

Land auswählen

England

Down Icon

Modellminimalismus: Die neue KI-Strategie spart Unternehmen Millionen

Modellminimalismus: Die neue KI-Strategie spart Unternehmen Millionen

Dieser Artikel ist Teil der Sonderausgabe von VentureBeat „Die wahren Kosten von KI: Leistung, Effizienz und ROI im großen Maßstab“. Lesen Sie mehr in dieser Sonderausgabe.

Durch die Einführung großer Sprachmodelle (LLMs) können sich Unternehmen leichter vorstellen, welche Art von Projekten sie durchführen können. Dies hat zu einer Zunahme der Zahl von Pilotprogrammen geführt, die nun in die Praxis umgesetzt werden.

Als diese Projekte jedoch an Dynamik gewannen, erkannten die Unternehmen, dass die zuvor von ihnen verwendeten LLMs unhandlich und – schlimmer noch – teuer waren.

Hier kommen kleine Sprachmodelle und Destillation ins Spiel. Modelle wie die Gemma-Familie von Google , Phi von Microsoft und Small 3.1 von Mistral ermöglichen Unternehmen die Auswahl schneller, präziser Modelle für spezifische Aufgaben. Unternehmen können sich für bestimmte Anwendungsfälle für ein kleineres Modell entscheiden, wodurch sie die Kosten für den Betrieb ihrer KI-Anwendungen senken und potenziell eine bessere Kapitalrendite erzielen.

Der angesehene LinkedIn -Ingenieur Karthik Ramgopal sagte gegenüber VentureBeat, dass sich Unternehmen aus mehreren Gründen für kleinere Modelle entscheiden.

„Kleinere Modelle benötigen weniger Rechenleistung, Speicher und schnellere Inferenzzeiten, was sich angesichts der GPU-Kosten, der Verfügbarkeit und des Strombedarfs direkt in niedrigeren Infrastruktur-OPEX (Betriebsausgaben) und CAPEX (Investitionsausgaben) niederschlägt“, sagte Ramgoapl. „Aufgabenspezifische Modelle haben einen engeren Anwendungsbereich, wodurch ihr Verhalten im Laufe der Zeit besser abgestimmt und ohne komplexes, zeitnahes Engineering besser wartbar ist.“

Modellentwickler berechnen ihre kleinen Modelle entsprechend. OpenAIs o4-mini kostet 1,1 US-Dollar pro Million Token für Eingaben und 4,4 US-Dollar pro Million Token für Ausgaben. Die Vollversion von o3 kostet dagegen 10 US-Dollar für Eingaben und 40 US-Dollar für Ausgaben.

Unternehmen können heute aus einer größeren Auswahl an kleinen, aufgabenspezifischen und reduzierten Modellen wählen . Die meisten Flaggschiffmodelle sind mittlerweile in verschiedenen Größen erhältlich. Die Claude-Modellfamilie von Anthropic umfasst beispielsweise Claude Opus, das größte Modell, Claude Sonnet, das Allzweckmodell , und Claude Haiku, die kleinste Version. Diese Modelle sind kompakt genug für den Betrieb auf tragbaren Geräten wie Laptops oder Mobiltelefonen.

Bei der Diskussion über den Return on Investment stellt sich jedoch immer die Frage: Wie sieht der ROI aus? Soll er die Rendite der entstandenen Kosten oder die Zeitersparnis sein, die letztlich zu Einsparungen führt? Experten, mit denen VentureBeat sprach, sagten, der ROI sei schwer zu beurteilen, da manche Unternehmen glauben, sie hätten ihn bereits durch die Reduzierung des Zeitaufwands für eine Aufgabe erreicht, während andere auf tatsächliche Einsparungen oder höhere Umsätze warten, um zu zeigen, ob sich KI-Investitionen tatsächlich gelohnt haben.

Normalerweise berechnen Unternehmen den ROI mit einer einfachen Formel, wie sie Cognizant- Cheftechnologe Ravi Naarla in einem Beitrag beschreibt: ROI = (Nutzen-Kosten)/Kosten. Bei KI-Programmen sind die Vorteile jedoch nicht sofort ersichtlich. Er schlägt vor, dass Unternehmen den erwarteten Nutzen identifizieren, diesen anhand historischer Daten abschätzen, die Gesamtkosten von KI, einschließlich Personalbeschaffung, Implementierung und Wartung, realistisch einschätzen und sich darüber im Klaren sind, dass sie langfristig dabei sein müssen.

Experten argumentieren, dass kleine Modelle die Implementierungs- und Wartungskosten senken, insbesondere bei der Feinabstimmung von Modellen, um ihnen mehr Kontext für Ihr Unternehmen zu verleihen.

Arijit Sengupta, Gründer und CEO von Aible , sagte, dass die Art und Weise, wie Nutzer Kontext in die Modelle einbringen, die Höhe der Kosteneinsparungen bestimmt. Für Personen, die zusätzlichen Kontext für Eingabeaufforderungen benötigen, wie beispielsweise lange und komplexe Anweisungen, kann dies zu höheren Token-Kosten führen.

„Man muss Modellen auf die eine oder andere Weise Kontext geben; es gibt nichts umsonst. Bei großen Modellen geschieht das aber meist direkt in der Eingabeaufforderung“, sagte er. „Stellen Sie sich Feinabstimmung und Nachschulung als alternative Möglichkeit vor, Modellen Kontext zu geben. Die Nachschulungskosten könnten zwar 100 Dollar betragen, aber das ist nicht astronomisch.“

Sengupta sagte, dass allein durch das Post-Training Kosteneinsparungen von etwa dem Hundertfachen erzielt wurden. Die Kosten für die Modellnutzung sanken oft „von einem einstelligen Millionenbetrag auf etwa 30.000 US-Dollar“. Er wies jedoch darauf hin, dass in diesem Betrag die Betriebskosten der Software sowie die laufenden Kosten für die Modell- und Vektordatenbanken enthalten seien.

„Was die Wartungskosten angeht, kann die Wartung teuer werden, wenn man sie manuell mit menschlichen Experten durchführt, weil kleine Modelle nachträglich trainiert werden müssen, um Ergebnisse zu erzielen, die mit denen großer Modelle vergleichbar sind“, sagte er.

Von Aible durchgeführte Experimente zeigten, dass ein aufgabenspezifisches, fein abgestimmtes Modell für einige Anwendungsfälle gute Ergebnisse liefert, genau wie LLMs. Dies spricht dafür, dass der Einsatz mehrerer anwendungsfallspezifischer Modelle kostengünstiger ist als der Einsatz großer Modelle für alle Anwendungsfälle.

Das Unternehmen verglich eine nachtrainierte Version von Llama-3.3-70B-Instruct mit einer kleineren 8B-Parameter-Variante desselben Modells. Das für 11,30 US-Dollar nachtrainierte 70B-Modell wies bei automatisierten Auswertungen eine Genauigkeit von 84 % und bei manuellen Auswertungen von 92 % auf. Nach der Feinabstimmung für 4,58 US-Dollar erreichte das 8B-Modell eine Genauigkeit von 82 % bei manuellen Bewertungen und eignet sich daher für kleinere, gezieltere Anwendungsfälle.

Die richtige Dimensionierung von Modellen muss nicht auf Kosten der Leistung gehen. Heutzutage verstehen Unternehmen, dass die Modellauswahl nicht nur die Wahl zwischen GPT-4o oder Llama-3.1 bedeutet; sie wissen auch, dass einige Anwendungsfälle, wie Zusammenfassung oder Codegenerierung, mit einem kleinen Modell besser bedient werden.

Daniel Hoske, Chief Technology Officer beim Anbieter von KI-Produkten für Contact Center, Cresta , sagte, dass der Beginn der Entwicklung mit LLMs bessere Informationen zu potenziellen Kosteneinsparungen liefert.

„Sie sollten mit dem größten Modell beginnen, um zu sehen, ob das, was Sie sich vorstellen, überhaupt funktioniert. Denn wenn es mit dem größten Modell nicht funktioniert, heißt das nicht, dass es mit kleineren Modellen auch funktioniert“, sagte er.

Ramgopal sagte, dass LinkedIn einem ähnlichen Muster folge, da diese Probleme nur durch Prototyping zutage treten könnten.

„Unser typischer Ansatz für agentenbasierte Anwendungsfälle beginnt mit allgemeinen LLMs, da deren breite Generalisierbarkeit es uns ermöglicht, schnell Prototypen zu erstellen, Hypothesen zu validieren und die Markttauglichkeit des Produkts zu bewerten“, sagte Ramgopal von LinkedIn. „Wenn das Produkt ausgereift ist und wir auf Einschränkungen hinsichtlich Qualität, Kosten oder Latenz stoßen, wechseln wir zu individuelleren Lösungen.“

In der Experimentierphase können Unternehmen ermitteln, was ihnen an ihren KI-Anwendungen am wichtigsten ist. So können Entwickler besser planen, wo sie sparen möchten, und die Modellgröße auswählen, die am besten zu ihrem Zweck und Budget passt.

Die Experten warnten, dass es zwar wichtig sei, mit Modellen zu arbeiten, die optimal mit den zu entwickelnden Modellen harmonieren, hochparametrige LLMs jedoch immer teurer sein werden. Große Modelle würden immer erhebliche Rechenleistung erfordern.

Die übermäßige Nutzung kleiner und aufgabenspezifischer Modelle bringt jedoch auch Probleme mit sich. Rahul Pathak, Vice President of Data and AI GTM bei AWS , erklärte in einem Blogbeitrag, dass Kostenoptimierung nicht nur durch die Verwendung eines Modells mit geringem Rechenleistungsbedarf, sondern vielmehr durch die Anpassung eines Modells an die Aufgaben entsteht. Kleinere Modelle verfügen möglicherweise nicht über ein ausreichend großes Kontextfenster, um komplexere Anweisungen zu verstehen, was zu einem erhöhten Arbeitsaufwand für menschliche Mitarbeiter und höheren Kosten führt.

Sengupta warnte auch davor, dass einige destillierte Modelle spröde sein könnten, sodass eine langfristige Nutzung möglicherweise nicht zu Einsparungen führt.

Unabhängig von der Modellgröße betonten Branchenakteure die Flexibilität, um potenzielle Probleme oder neue Anwendungsfälle zu bewältigen. Wenn Unternehmen also mit einem großen und einem kleineren Modell mit ähnlicher oder besserer Leistung und geringeren Kosten beginnen, können sie bei der Wahl ihres Modells nicht wählerisch sein.

Tessa Burg, CTO und Leiterin für Innovation beim Markenmarketingunternehmen Mod Op , sagte gegenüber VentureBeat, dass Unternehmen verstehen müssen, dass alles, was sie jetzt bauen, immer durch eine bessere Version ersetzt wird.

Wir gingen von Anfang an davon aus, dass sich die Technologie hinter den von uns erstellten Arbeitsabläufen und den Prozessen, die wir effizienter gestalten, ändern wird. Uns war klar, dass jedes Modell, das wir verwenden, die schlechteste Version eines Modells sein wird.“

Burg sagte, kleinere Modelle hätten ihrem Unternehmen und seinen Kunden geholfen, Zeit bei der Recherche und Entwicklung von Konzepten zu sparen. Diese Zeitersparnis führe mit der Zeit zu Budgeteinsparungen, sagte sie. Sie fügte hinzu, es sei eine gute Idee, teure, häufig genutzte Anwendungsfälle in leichtgewichtige Modelle umzuwandeln.

Sengupta merkte an, dass die Anbieter den automatischen Wechsel zwischen Modellen inzwischen einfacher machen, riet den Benutzern jedoch, Plattformen zu finden, die auch die Feinabstimmung ermöglichen, damit ihnen keine zusätzlichen Kosten entstehen.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow