Die Inferenzfalle: Wie Cloud-Anbieter Ihre KI-Margen auffressen

Dieser Artikel ist Teil der Sonderausgabe von VentureBeat „Die wahren Kosten von KI: Leistung, Effizienz und ROI im großen Maßstab“. Lesen Sie mehr in dieser Sonderausgabe.
KI ist zum Schlüssel moderner Unternehmen geworden. Ob Kundenservice oder Nischenbereiche wie die Pipeline-Wartung – Unternehmen aller Branchen setzen mittlerweile KI-Technologien ein – von Basismodellen bis hin zu VLAs –, um die Effizienz zu steigern. Das Ziel ist einfach: Aufgaben automatisieren, um effizientere Ergebnisse zu erzielen und gleichzeitig Geld und Ressourcen zu sparen.
Doch beim Übergang von der Pilot- zur Produktionsphase stoßen die Teams auf ein unerwartetes Hindernis: Die Cloud-Kosten schmälern ihre Margen. Der Preisschock ist so groß, dass der einst scheinbar schnellste Weg zu Innovation und Wettbewerbsvorteilen innerhalb kürzester Zeit zu einem unhaltbaren finanziellen Loch wird.
Dies veranlasst CIOs, alles – von der Modellarchitektur bis hin zu den Bereitstellungsmodellen – zu überdenken, um die Kontrolle über finanzielle und betriebliche Aspekte zurückzugewinnen. Manchmal stellen sie die Projekte sogar ganz ein und beginnen von vorne.
Fakt ist: Auch wenn die Cloud die Kosten ins Unerträgliche treiben kann, ist sie nicht der Bösewicht. Man muss nur verstehen, welches Fahrzeug (KI-Infrastruktur) man für welchen Weg (die Arbeitslast) wählen muss.
Die Cloud-Story – und wo sie funktioniertDie Cloud ist vergleichbar mit öffentlichen Verkehrsmitteln (U-Bahnen und Bussen). Sie steigen mit einem einfachen Mietmodell ein und erhalten sofort alle Ressourcen – von GPU-Instanzen bis hin zur schnellen Skalierung über verschiedene Regionen hinweg –, um Sie mit minimalem Aufwand und Einrichtung an Ihr Ziel zu bringen.
Der schnelle und einfache Zugriff über ein Servicemodell gewährleistet einen reibungslosen Start und ebnet den Weg, das Projekt auf den Weg zu bringen und schnell zu experimentieren, ohne dass im Vorfeld enorme Investitionen in die Anschaffung spezialisierter GPUs getätigt werden müssen.
Für die meisten Startups in der Frühphase ist dieses Modell lukrativ, da für sie eine schnelle Abwicklung wichtiger ist als alles andere, insbesondere wenn sie das Modell noch validieren und die Markttauglichkeit des Produkts bestimmen.
„Sie erstellen ein Konto, klicken ein paar Mal und erhalten Zugriff auf die Server. Wenn Sie eine andere GPU-Größe benötigen, fahren Sie die Instanz herunter und starten sie mit den neuen Spezifikationen neu. Das dauert nur wenige Minuten. Wenn Sie zwei Experimente gleichzeitig durchführen möchten, initialisieren Sie zwei separate Instanzen. In der Anfangsphase liegt der Fokus auf der schnellen Validierung von Ideen. Die Nutzung der integrierten Skalierungs- und Experimentier-Frameworks der meisten Cloud-Plattformen hilft, die Zeit zwischen den Meilensteinen zu verkürzen“, sagte Rohan Sarin, Leiter des Bereichs Sprach-KI bei Speechmatics , gegenüber VentureBeat.
Während die Cloud in der Anfangsphase durchaus sinnvoll ist, gestaltet sich die Infrastrukturberechnung düster, sobald das Projekt von der Test- und Validierungsphase in die Praxis übergeht. Das Ausmaß der Workloads treibt die Kosten in die Höhe – so sehr, dass sie über Nacht um über 1000 % ansteigen können.
Dies gilt insbesondere für Inferenzen, die nicht nur rund um die Uhr laufen müssen, um die Verfügbarkeit des Dienstes sicherzustellen, sondern auch mit der Kundennachfrage skaliert werden müssen.
In den meisten Fällen, erklärt Sarin, steigt die Inferenznachfrage sprunghaft an, wenn auch andere Kunden GPU-Zugriff anfordern, was den Wettbewerb um Ressourcen verstärkt. In solchen Fällen halten die Teams entweder eine reservierte Kapazität vor, um sicherzustellen, dass sie die benötigten Ressourcen erhalten – was zu ungenutzter GPU-Zeit außerhalb der Spitzenzeiten führt – oder sie leiden unter Latenzen, die sich auf das Downstream-Erlebnis auswirken.
Christian Khoury, CEO der KI-Compliance-Plattform EasyAudit AI , bezeichnete Inferenz als die neue „Cloud-Steuer“ und sagte VentureBeat, er habe erlebt, wie Unternehmen allein durch Inferenzverkehr über Nacht von 5.000 auf 50.000 US-Dollar pro Monat zulegten.
Es ist auch erwähnenswert, dass Inferenz-Workloads mit LLMs und tokenbasierter Preisgestaltung die stärksten Kostensteigerungen verursachen können. Dies liegt daran, dass diese Modelle nicht deterministisch sind und bei der Verarbeitung langwieriger Aufgaben (mit großen Kontextfenstern) unterschiedliche Ergebnisse generieren können. Bei kontinuierlichen Updates wird es sehr schwierig, die LLM-Inferenzkosten vorherzusagen oder zu kontrollieren.
Das Training dieser Modelle erfolgt wiederum „bursty“ (in Clustern), was Spielraum für die Kapazitätsplanung lässt. Doch selbst in diesen Fällen, insbesondere da der wachsende Wettbewerb häufiges Nachtrainieren erfordert, können Unternehmen aufgrund von Überbereitstellung hohe Kosten für ungenutzte GPU-Zeiten haben.
„Trainingsguthaben auf Cloud-Plattformen sind teuer, und häufiges Umschulen während schneller Iterationszyklen kann die Kosten schnell in die Höhe treiben. Lange Trainingsläufe erfordern Zugriff auf große Rechner, und die meisten Cloud-Anbieter garantieren diesen Zugriff nur, wenn Sie Kapazitäten für ein Jahr oder länger reservieren. Dauert Ihr Trainingslauf nur wenige Wochen, zahlen Sie trotzdem für den Rest des Jahres“, erklärte Sarin.
Und es ist nicht nur das. Cloud-Lock-in ist real. Angenommen, Sie haben eine langfristige Reservierung vorgenommen und Guthaben bei einem Anbieter gekauft. In diesem Fall sind Sie an dessen Ökosystem gebunden und müssen das nutzen, was dieser anbietet, selbst wenn andere Anbieter auf eine neuere, bessere Infrastruktur umgestiegen sind. Und schließlich müssen Sie bei einem Wechsel möglicherweise hohe Ausstiegsgebühren zahlen.
„Es geht nicht nur um die Rechenkosten. Man bekommt … unvorhersehbare automatische Skalierung und horrende Gebühren für den Datentransfer zwischen Regionen oder Anbietern. Ein Team zahlte mehr für den Datentransfer als für das Training seiner Modelle“, betonte Sarin.
Angesichts des konstanten Infrastrukturbedarfs zur Skalierung der KI-Inferenz und der stoßweisen Natur des Trainings gehen Unternehmen dazu über, die Arbeitslasten aufzuteilen: Sie verlagern die Inferenz in Colocation- oder On-Premise-Stacks und überlassen das Training der Cloud mit Spot-Instanzen.
Dies ist nicht bloße Theorie, sondern eine wachsende Bewegung unter führenden Ingenieuren, die versuchen, KI in die Produktion zu bringen, ohne dabei die Startbahn zu überfahren.
„Wir haben Teams dabei geholfen, für Inferenz auf Colocation umzusteigen und dabei dedizierte GPU-Server zu verwenden, die sie selbst steuern. Das ist zwar nicht besonders attraktiv, senkt aber die monatlichen Infrastrukturkosten um 60–80 %“, fügte Khoury hinzu. „Hybrid ist nicht nur günstiger, sondern auch intelligenter.“
In einem Fall, so sagte er, habe ein SaaS-Unternehmen seine monatlichen Kosten für die KI-Infrastruktur von rund 42.000 auf nur 9.000 Dollar gesenkt, indem es Inferenz-Workloads aus der Cloud verlagerte. Die Umstellung amortisierte sich in weniger als zwei Wochen.
Ein anderes Team, das für ein KI-Kundensupport-Tool konsistente Antworten unter 50 ms benötigte, stellte fest, dass die cloudbasierte Inferenzlatenz nicht ausreichte. Die Verlagerung der Inferenz näher an die Nutzer durch Colocation löste nicht nur den Leistungsengpass, sondern halbierte auch die Kosten.
Das Setup funktioniert typischerweise so: Die Inferenz, die ständig aktiv und latenzempfindlich ist, läuft auf dedizierten GPUs entweder vor Ort oder in einem nahegelegenen Rechenzentrum (Colocation-Einrichtung). Das rechenintensive, aber sporadische Training verbleibt in der Cloud, wo Sie leistungsstarke Cluster bei Bedarf starten, für einige Stunden oder Tage ausführen und anschließend wieder herunterfahren können.
Generell wird geschätzt, dass die Miete bei Hyperscale-Cloud-Anbietern pro GPU-Stunde drei- bis viermal mehr kosten kann als die Zusammenarbeit mit kleineren Anbietern, wobei der Unterschied im Vergleich zur lokalen Infrastruktur sogar noch größer ist.
Der andere große Bonus? Vorhersehbarkeit.
Mit On-Premise- oder Colocation-Stacks haben Teams zudem die volle Kontrolle über die Anzahl der Ressourcen, die sie für die erwartete Basis der Inferenz-Workloads bereitstellen oder hinzufügen möchten. Dies sorgt für Planbarkeit der Infrastrukturkosten und vermeidet unerwartete Rechnungen. Außerdem reduziert es den hohen technischen Aufwand für die Skalierung und hält die Kosten für die Cloud-Infrastruktur im Rahmen.
Hybrid-Setups tragen außerdem dazu bei, die Latenz bei zeitkritischen KI-Anwendungen zu reduzieren und eine bessere Compliance zu ermöglichen, insbesondere für Teams, die in stark regulierten Branchen wie dem Finanz-, Gesundheits- und Bildungswesen tätig sind, wo Datenresidenz und -verwaltung nicht verhandelbar sind.
Wie schon immer bringt die Umstellung auf ein Hybrid-Setup auch eigene Betriebskosten mit sich. Die Einrichtung eigener Hardware oder die Anmietung einer Colocation-Einrichtung kostet Zeit, und die Verwaltung von GPUs außerhalb der Cloud erfordert eine andere Art von technischer Leistung.
Führungskräfte argumentieren jedoch, dass die Komplexität oft überbewertet wird und in der Regel intern oder durch externe Unterstützung bewältigt werden kann, es sei denn, man operiert in einem extremen Maßstab.
„Unsere Berechnungen zeigen, dass ein GPU-Server vor Ort etwa so viel kostet wie die sechs- bis neunmonatige Miete einer entsprechenden Instanz bei AWS, Azure oder Google Cloud, selbst bei einem einjährigen Reservierungstarif. Da die Hardware in der Regel mindestens drei Jahre, oft sogar mehr als fünf Jahre hält, amortisiert sich dies bereits nach den ersten neun Monaten. Einige Hardwareanbieter bieten auch Betriebspreismodelle für die Kapitalinfrastruktur an, sodass Sie bei Liquiditätsproblemen Vorauszahlungen vermeiden können“, erklärte Sarin.
Für jedes Unternehmen, ob Startup oder Großkonzern, liegt der Schlüssel zum Erfolg bei der Architektur – oder Neuarchitektur – einer KI-Infrastruktur darin, entsprechend der vorliegenden spezifischen Arbeitslasten zu arbeiten.
Wenn Sie sich über die Belastung verschiedener KI-Workloads nicht im Klaren sind, beginnen Sie mit der Cloud und behalten Sie die damit verbundenen Kosten im Auge, indem Sie jede Ressource dem zuständigen Team zuordnen. Sie können diese Kostenberichte mit allen Managern teilen und detailliert analysieren, was sie nutzen und welche Auswirkungen dies auf die Ressourcen hat. Diese Daten schaffen Klarheit und tragen dazu bei, die Effizienz zu steigern.
Bedenken Sie jedoch, dass es nicht darum geht, die Cloud gänzlich aufzugeben, sondern ihre Nutzung zu optimieren, um die Effizienz zu maximieren.
„Die Cloud eignet sich nach wie vor hervorragend für Experimente und stoßweises Training. Aber wenn Inferenz Ihre Kernaufgabe ist, sollten Sie sich vom Miet-Hamsterrad verabschieden. Hybrid ist nicht nur günstiger, sondern auch intelligenter“, fügte Khoury hinzu. „Behandeln Sie die Cloud wie einen Prototyp, nicht als dauerhaftes Zuhause. Rechnen Sie nach. Sprechen Sie mit Ihren Ingenieuren. Die Cloud wird Ihnen nie sagen, wann sie das falsche Werkzeug ist. Aber Ihre AWS-Rechnung wird es.“
venturebeat