KI neu gedacht: DeepSeeks Playbook bringt das Paradigma der hohen Ausgaben und hohen Rechenleistung ins Wanken

Nehmen Sie an der Veranstaltung teil, der Unternehmensführer seit fast zwei Jahrzehnten vertrauen. VB Transform bringt die Menschen zusammen, die eine echte KI-Strategie für Unternehmen entwickeln. Mehr erfahren
Als DeepSeek im Januar dieses Jahres sein R1-Modell vorstellte, war dies nicht nur eine weitere KI-Ankündigung. Es war ein Wendepunkt, der Schockwellen durch die Technologiebranche schickte und die Branchenführer dazu zwang, ihre grundlegenden Ansätze zur KI-Entwicklung zu überdenken.
Was DeepSeeks Leistung so bemerkenswert macht, ist nicht die Entwicklung neuartiger Funktionen, sondern vielmehr die Tatsache, dass es vergleichbare Ergebnisse wie die der Technologieriesen zu einem Bruchteil der Kosten erzielte. Tatsächlich hat DeepSeek nichts getan, was es nicht schon vorher gegeben hätte; seine Innovation basierte auf der Verfolgung anderer Prioritäten. Daher erleben wir heute eine rasante Entwicklung auf zwei parallelen Pfaden: Effizienz und Rechenleistung.
Während DeepSeek sich auf die Veröffentlichung seines R2-Modells vorbereitet und gleichzeitig mit der Möglichkeit noch größerer Chipbeschränkungen seitens der USA konfrontiert ist, ist es wichtig, sich anzuschauen, wie das Unternehmen so viel Aufmerksamkeit auf sich ziehen konnte.
DeepSeeks plötzliche und dramatische Ankunft faszinierte uns alle, weil sie zeigte, dass Innovationen auch unter erheblichen Einschränkungen gedeihen können. Angesichts der US-Exportkontrollen, die den Zugang zu hochmodernen KI-Chips einschränkten, war DeepSeek gezwungen, alternative Wege zur KI-Weiterentwicklung zu finden.
Während US-Unternehmen Leistungssteigerungen durch leistungsstärkere Hardware, größere Modelle und bessere Daten anstrebten, konzentrierte sich DeepSeek auf die Optimierung des Vorhandenen. Bekannte Ideen wurden mit bemerkenswerter Effizienz umgesetzt – und es ist neuartig, Bekanntes umzusetzen und es gut umzusetzen.
Dieser effizienzorientierte Ansatz führte zu beeindruckenden Ergebnissen. DeepSeeks R1-Modell erreicht Berichten zufolge die Leistungsfähigkeit von OpenAI bei nur 5 bis 10 % der Betriebskosten. Berichten zufolge kostete der letzte Trainingslauf für DeepSeeks Vorgänger V3 lediglich 6 Millionen US-Dollar – ein lächerliches Budget, wie der ehemalige Tesla-KI-Wissenschaftler Andrej Karpathy im Vergleich zu den zig- oder hundertmillionenschweren Ausgaben der US-Konkurrenz bezeichnete. Noch bemerkenswerter: Während OpenAI Berichten zufolge 500 Millionen US-Dollar für das Training seines jüngsten „Orion“-Modells ausgab, erzielte DeepSeek für nur 5,6 Millionen US-Dollar – weniger als 1,2 % der OpenAI-Investition – bessere Benchmark-Ergebnisse.
Wenn Sie jetzt träumerisch glauben, dass diese unglaublichen Ergebnisse erzielt wurden, obwohl DeepSeek aufgrund seines fehlenden Zugriffs auf fortschrittliche KI-Chips im Nachteil war, muss ich Ihnen leider sagen, dass diese Darstellung nicht ganz korrekt ist (auch wenn sie eine gute Geschichte ist). Die anfänglichen US-Exportkontrollen konzentrierten sich in erster Linie auf die Rechenleistung, nicht auf Speicher und Netzwerk – zwei entscheidende Komponenten für die KI-Entwicklung.
Das bedeutet, dass die Chips, auf die DeepSeek Zugriff hatte, keine minderwertigen Chips waren. Ihre Netzwerk- und Speicherkapazitäten ermöglichten es DeepSeek, Vorgänge über viele Einheiten hinweg zu parallelisieren, eine Schlüsselstrategie für den effizienten Betrieb ihres großen Modells.
Dies, kombiniert mit Chinas nationalem Bestreben, die gesamte vertikale KI-Infrastruktur zu kontrollieren, führte zu einer beschleunigten Innovation, die viele westliche Beobachter nicht erwartet hatten. Die Fortschritte von DeepSeek waren ein unvermeidlicher Teil der KI-Entwicklung, brachten aber bekannte Fortschritte einige Jahre früher voran, als es sonst möglich gewesen wäre – und das ist ziemlich erstaunlich.
Über die Hardwareoptimierung hinaus stellt DeepSeeks Ansatz für Trainingsdaten eine weitere Abweichung von konventionellen westlichen Praktiken dar. Anstatt sich ausschließlich auf aus dem Web extrahierte Inhalte zu verlassen, nutzt DeepSeek Berichten zufolge erhebliche Mengen synthetischer Daten und Ergebnisse anderer proprietärer Modelle. Dies ist ein klassisches Beispiel für Modelldestillation, also die Fähigkeit, von wirklich leistungsstarken Modellen zu lernen. Ein solcher Ansatz wirft jedoch Fragen zu Datenschutz und -verwaltung auf, die westliche Unternehmenskunden beunruhigen könnten. Dennoch unterstreicht er DeepSeeks pragmatischen Fokus auf Ergebnisse statt auf Prozesse.
Die effektive Nutzung synthetischer Daten ist ein wichtiges Unterscheidungsmerkmal. Synthetische Daten können beim Training großer Modelle sehr effektiv sein, aber Vorsicht ist geboten: Manche Modellarchitekturen verarbeiten synthetische Daten besser als andere. Beispielsweise sind transformerbasierte Modelle mit einer Mischung aus Experten (MoE) wie DeepSeek tendenziell robuster bei der Einbindung synthetischer Daten, während traditionellere, dichtere Architekturen, wie sie in frühen Llama-Modellen verwendet wurden, bei Training mit zu vielen synthetischen Inhalten Leistungseinbußen oder sogar einen „Modellzusammenbruch“ erfahren können.
Diese architektonische Sensibilität ist wichtig, da synthetische Daten im Vergleich zu realen Daten andere Muster und Verteilungen aufweisen. Wenn eine Modellarchitektur mit synthetischen Daten nicht gut zurechtkommt, kann sie Abkürzungen oder Verzerrungen aus der Generierung synthetischer Daten anstelle verallgemeinerbaren Wissens erlernen. Dies kann zu Leistungseinbußen bei realen Aufgaben, vermehrten Halluzinationen oder Anfälligkeit in neuen Situationen führen.
Dennoch haben die Entwicklungsteams von DeepSeek ihre Modellarchitektur Berichten zufolge bereits in der frühen Planungsphase speziell auf die Integration synthetischer Daten ausgerichtet. Dies ermöglichte es dem Unternehmen, die Kostenvorteile synthetischer Daten zu nutzen, ohne die Leistung zu beeinträchtigen.
Warum ist das alles wichtig? Abgesehen vom Aktienmarkt hat das Aufkommen von DeepSeek bei den Branchenführern wesentliche strategische Veränderungen ausgelöst.
Ein typisches Beispiel: OpenAI. Sam Altman kündigte kürzlich Pläne an, das erste „offene“ Sprachmodell des Unternehmens seit 2019 zu veröffentlichen. Dies ist ein bemerkenswerter Wendepunkt für ein Unternehmen, das sein Geschäft auf proprietären Systemen aufbaute. Es scheint, dass der Aufstieg von DeepSeek, zusätzlich zum Erfolg von Llama, den OpenAI-Chef hart getroffen hat. Nur einen Monat nach DeepSeeks Auftritt räumte Altman ein, OpenAI habe in Bezug auf Open-Source-KI „auf der falschen Seite der Geschichte“ gestanden.
Da OpenAI Berichten zufolge jährlich 7 bis 8 Milliarden Dollar für den Betrieb ausgibt, ist der wirtschaftliche Druck durch effiziente Alternativen wie DeepSeek nicht mehr zu übersehen. KI-Experte Kai-Fu Lee brachte es auf den Punkt: „Wir geben jährlich 7 bis 8 Milliarden Dollar aus und machen enorme Verluste, und da kommt ein Konkurrent mit einem kostenlosen Open-Source-Modell auf den Markt.“ Das macht Veränderungen notwendig.
Diese wirtschaftliche Realität veranlasste OpenAI zu einer massiven Finanzierungsrunde in Höhe von 40 Milliarden US-Dollar , die das Unternehmen mit beispiellosen 300 Milliarden US-Dollar bewertete. Doch selbst mit dieser finanziellen Unterstützung bleibt die grundlegende Herausforderung bestehen: Der Ansatz von OpenAI ist deutlich ressourcenintensiver als der von DeepSeek.
Ein weiterer wichtiger Trend, der durch DeepSeek beschleunigt wird, ist die Verlagerung hin zu „Test-Time Compute“ (TTC). Da große KI-Labore ihre Modelle mittlerweile mit einem Großteil der öffentlich verfügbaren Daten im Internet trainiert haben, bremst der Datenmangel weitere Verbesserungen im Vortraining.
Um dieses Problem zu umgehen, kündigte DeepSeek eine Zusammenarbeit mit der Tsinghua-Universität an, um „Self-Principled Critique Tuning“ (SPCT) zu ermöglichen. Dieser Ansatz trainiert KI, eigene Regeln für die Beurteilung von Inhalten zu entwickeln und diese dann für detaillierte Kritiken zu nutzen. Das System verfügt über einen integrierten „Richter“, der die Antworten der KI in Echtzeit bewertet und mit Kernregeln und Qualitätsstandards vergleicht.
Die Entwicklung ist Teil einer Bewegung hin zur autonomen Selbstevaluierung und Verbesserung von KI-Systemen. Dabei nutzen Modelle die Inferenzzeit, um Ergebnisse zu verbessern, anstatt sie während des Trainings einfach zu vergrößern. DeepSeek nennt sein System „DeepSeek-GRM“ (Generalist Reward Modeling). Doch wie sein Ansatz der Modelldestillation könnte dies als eine Mischung aus Versprechen und Risiko angesehen werden.
Entwickelt die KI beispielsweise eigene Bewertungskriterien, besteht das Risiko, dass diese von menschlichen Werten, ethischen Grundsätzen oder dem Kontext abweichen. Die Regeln könnten zu starr oder voreingenommen sein, Stil über Substanz stellen und/oder falsche Annahmen oder Halluzinationen verstärken. Ohne menschliche Beteiligung könnten zudem Probleme entstehen, wenn der „Beurteiler“ fehlerhaft oder falsch ausgerichtet ist. Es ist eine Art Selbstgespräch zwischen KI und Menschen ohne solide externe Grundlage. Darüber hinaus verstehen Nutzer und Entwickler möglicherweise nicht, warum die KI zu einer bestimmten Schlussfolgerung gelangt ist – was ein größeres Problem aufwirft: Sollte eine KI allein auf Grundlage ihrer eigenen Logik entscheiden dürfen, was „gut“ oder „richtig“ ist? Diese Risiken sollten nicht außer Acht gelassen werden.
Gleichzeitig gewinnt dieser Ansatz an Bedeutung, da DeepSeek erneut auf der Arbeit anderer aufbaut (denken Sie an die „Kritik- und Überarbeitungsmethoden“ von OpenAI, die konstitutionelle KI von Anthropics oder die Forschung zu selbstbelohnenden Agenten), um die wahrscheinlich erste Full-Stack-Anwendung von SPCT in einem kommerziellen Projekt zu schaffen.
Dies könnte einen deutlichen Wandel in der KI-Autonomie bedeuten, doch bedarf es weiterhin strenger Prüfungen, Transparenz und Sicherheitsvorkehrungen. Es geht nicht nur darum, dass die Modelle intelligenter werden, sondern auch darum, dass sie aufeinander abgestimmt, interpretierbar und vertrauenswürdig bleiben, wenn sie beginnen, sich selbst ohne menschliche Leitplanken zu kritisieren.
Vor diesem Hintergrund signalisiert der Aufstieg von DeepSeek eine breitere Verschiebung der KI-Branche hin zu parallelen Innovationspfaden. Während Unternehmen weiterhin leistungsfähigere Rechencluster für die nächste Generation entwickeln, liegt der Fokus auch auf Effizienzsteigerungen durch Softwareentwicklung und Modellarchitekturverbesserungen, um den Herausforderungen des KI-Energieverbrauchs zu begegnen, der die Stromerzeugungskapazität deutlich übersteigt.
Unternehmen nehmen dies zur Kenntnis. Microsoft beispielsweise hat den Ausbau von Rechenzentren in mehreren Regionen weltweit gestoppt und setzt auf eine stärker verteilte, effizientere Infrastruktur. Zwar plant das Unternehmen in diesem Geschäftsjahr weiterhin, rund 80 Milliarden US-Dollar in die KI-Infrastruktur zu investieren, verteilt seine Ressourcen jedoch neu, um auf die Effizienzsteigerungen zu reagieren, die DeepSeek auf den Markt gebracht hat.
Meta hat auch geantwortet, Meta veröffentlichte seine neueste Llama-4-Modellfamilie, die erstmals die MoE-Architektur nutzt. Bei der Einführung von Llama 4 bezog Meta DeepSeek-Modelle ausdrücklich in seine Benchmark-Vergleiche ein, detaillierte Leistungsergebnisse wurden jedoch nicht veröffentlicht. Diese direkte Wettbewerbspositionierung signalisiert den Wandel, in dem chinesische KI-Modelle (auch Alibaba ist dabei) von Unternehmen im Silicon Valley als benchmarkfähig angesehen werden.
Angesichts so vieler Entwicklungen in so kurzer Zeit erscheint es ironisch, dass die US-Sanktionen, die die amerikanische KI-Dominanz sichern sollten, möglicherweise genau die Innovationen beschleunigt haben, die sie eigentlich eindämmen wollten. Durch die Einschränkung des Zugangs zu Materialien war DeepSeek gezwungen, neue Wege zu beschreiten.
Da sich die Branche global weiterentwickelt, wird die Anpassungsfähigkeit aller Akteure entscheidend sein. Richtlinien, Menschen und Marktreaktionen werden die Spielregeln weiter verändern – sei es durch die Abschaffung der KI-Diffusionsregel , ein neues Verbot von Technologiekäufen oder etwas ganz anderes. Es wird sich lohnen, zu beobachten, was wir voneinander lernen und wie wir darauf reagieren.
Jae Lee ist CEO und Mitbegründer von TwelveLabs .
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat