Der Aufstieg von Prompt Ops: Bekämpfung versteckter KI-Kosten durch fehlerhafte Eingaben und Kontextüberlastung

Dieser Artikel ist Teil der Sonderausgabe von VentureBeat „Die wahren Kosten von KI: Leistung, Effizienz und ROI im großen Maßstab“. Lesen Sie mehr in dieser Sonderausgabe.
Modellanbieter bringen weiterhin immer ausgefeiltere große Sprachmodelle (LLMs) mit längeren Kontextfenstern und verbesserten Denkfähigkeiten auf den Markt.
Dadurch können die Modelle mehr verarbeiten und „denken“, es erhöht jedoch auch den Rechenaufwand: Je mehr ein Modell aufnimmt und ausgibt, desto mehr Energie verbraucht es und desto höher sind die Kosten.
Kombinieren Sie dies mit all dem Herumprobieren, das mit der Eingabeaufforderung verbunden ist – es kann mehrere Versuche dauern, bis das gewünschte Ergebnis erreicht wird, und manchmal erfordert die vorliegende Frage einfach kein Modell, das wie ein Doktorand denken kann – und die Rechenausgaben können außer Kontrolle geraten.
Dies führt zur Entstehung von Prompt Ops, einer völlig neuen Disziplin im anbrechenden Zeitalter der KI .
„Prompt Engineering ist wie Schreiben, das eigentliche Gestalten, während Prompt Ops wie Publizieren ist, wo man den Inhalt weiterentwickelt“, sagte Crawford Del Prete, Präsident von IDC , gegenüber VentureBeat. „Der Inhalt ist lebendig, er verändert sich, und man sollte sicherstellen, dass man ihn im Laufe der Zeit verfeinert.“
Rechenleistung und -kosten seien im Kontext von LLMs zwei „verwandte, aber getrennte Konzepte“, erklärte David Emerson, angewandter Wissenschaftler am Vector Institute . Der Preis, den Nutzer zahlen, hänge in der Regel sowohl von der Anzahl der Eingabe-Token (den Eingabeaufforderungen des Nutzers) als auch von der Anzahl der Ausgabe-Token (den vom Modell gelieferten Daten) ab. Diese Preise würden jedoch für Aktionen im Hintergrund wie Meta-Eingabeaufforderungen, Steuerungsanweisungen oder Retrieval-Augmented Generation (RAG) nicht geändert.
Längerer Kontext ermöglicht es Modellen zwar, deutlich mehr Text gleichzeitig zu verarbeiten, führt aber direkt zu deutlich mehr FLOPS (ein Maß für die Rechenleistung), erklärte er. Einige Aspekte von Transformer-Modellen skalieren bei unzureichender Verwaltung sogar quadratisch mit der Eingabelänge. Unnötig lange Antworten können die Verarbeitungszeit ebenfalls verlangsamen und zusätzliche Rechenleistung und Kosten für die Entwicklung und Wartung von Algorithmen erfordern, um die Antworten in die gewünschte Antwort umzuwandeln.
Typischerweise bieten längere Kontextumgebungen den Anbietern einen Anreiz, bewusst ausführliche Antworten zu liefern, so Emerson. Beispielsweise liefern viele komplexere Reasoning-Modelle (z. B. o3 oder o1 von OpenAI ) oft lange Antworten selbst auf einfache Fragen, was hohe Rechenkosten verursacht.
Hier ist ein Beispiel:
Eingabe : Beantworten Sie die folgende Rechenaufgabe. Wenn ich zwei Äpfel habe und nach dem Verzehr von einem im Laden vier weitere kaufe, wie viele Äpfel habe ich dann?
Ausgabe : Wenn ich 1 esse, habe ich nur noch 1 übrig. Ich hätte 5 Äpfel, wenn ich 4 weitere kaufe.
Das Modell generierte nicht nur mehr Token als nötig, sondern verbarg auch seine Antwort. Ein Entwickler muss dann möglicherweise eine programmgesteuerte Methode entwickeln, um die endgültige Antwort zu extrahieren oder Folgefragen wie „Wie lautet Ihre endgültige Antwort?“ zu stellen, was zu weiteren API-Kosten führt.
Alternativ könnte die Eingabeaufforderung so umgestaltet werden, dass das Modell sofort eine Antwort liefert. Zum Beispiel:
Eingabe : Beantworten Sie die folgende Rechenaufgabe. Wenn ich zwei Äpfel habe und nach dem Verzehr eines weiteren vier weitere kaufe, wie viele Äpfel habe ich dann? Beginnen Sie Ihre Antwort mit „Die Antwort lautet“…
Oder:
Eingabe : Beantworten Sie die folgende Rechenaufgabe. Wenn ich zwei Äpfel habe und nach dem Verzehr eines weiteren vier weitere kaufe, wie viele Äpfel habe ich dann? Setzen Sie Ihre endgültige Antwort in Fettdruck. .
„Die Art und Weise, wie die Frage gestellt wird, kann den Aufwand oder die Kosten reduzieren, um zur gewünschten Antwort zu gelangen“, sagte Emerson. Er wies auch darauf hin, dass Techniken wie Few-Shot-Prompting (die Bereitstellung einiger Beispiele für das, wonach der Benutzer sucht) zu schnelleren Ergebnissen führen können.
Eine Gefahr bestehe darin, nicht zu wissen, wann man anspruchsvolle Techniken wie Chain-of-Thinking (CoT)-Prompting (Generierung von Antworten in Schritten) oder Selbstverfeinerung einsetzen solle, die Modelle direkt dazu anregen, viele Token zu produzieren oder bei der Generierung von Antworten mehrere Iterationen zu durchlaufen, betonte Emerson.
Nicht jede Abfrage erfordert ein Modell, das vor der Beantwortung analysiert und erneut analysiert werden muss, betonte er. Sie könnten durchaus in der Lage sein, korrekt zu antworten, wenn sie direkt dazu aufgefordert werden. Darüber hinaus verursachen falsche API-Konfigurationen (wie OpenAI o3, das einen hohen Denkaufwand erfordert) höhere Kosten, während eine einfachere und kostengünstigere Anfrage ausreichen würde.
„Bei längeren Kontexten können Nutzer auch dazu verleitet werden, einen ‚Alles außer der Küchenspüle‘-Ansatz zu wählen. Dabei wird so viel Text wie möglich in einen Modellkontext gepackt, in der Hoffnung, dass das Modell dadurch eine Aufgabe präziser ausführen kann“, sagte Emerson. „Mehr Kontext kann zwar die Ausführung von Aufgaben durch Modelle erleichtern, ist aber nicht immer der beste oder effizienteste Ansatz.“
Es ist kein großes Geheimnis, dass KI-optimierte Infrastrukturen heutzutage schwer zu finden sind. Del Prete von IDC wies darauf hin, dass Unternehmen in der Lage sein müssen, die Leerlaufzeiten der GPU zu minimieren und mehr Abfragen in die Leerlaufzyklen zwischen den GPU-Anfragen zu integrieren.
„Wie kann ich mehr aus diesen äußerst wertvollen Rohstoffen herausholen?“, fragte er. „Ich muss meine Systemauslastung steigern, denn ich kann das Problem nicht einfach mit mehr Kapazität lösen.“
Prompt-Operationen können einen großen Beitrag zur Bewältigung dieser Herausforderung leisten, da sie letztlich den Lebenszyklus des Prompts verwalten. Während es beim Prompt-Engineering um die Qualität des Prompts geht, geht es bei Prompt-Operationen um die Wiederholung, erklärte Del Prete.
„Es ist eher eine Orchestrierung“, sagte er. „Ich sehe es als die Kuratierung von Fragen und die Kuratierung der Interaktion mit KI, um sicherzustellen, dass man das Beste daraus macht.“
Modelle neigen dazu, „ermüdet“ zu werden und in Schleifen zu laufen, wodurch die Qualität der Ergebnisse nachlässt, sagte er. Prompt Ops helfen bei der Verwaltung, Messung, Überwachung und Optimierung von Prompts. „Ich denke, wenn wir in drei oder vier Jahren zurückblicken, wird es eine ganze Disziplin sein. Es wird eine Fähigkeit sein.“
Obwohl es sich noch um ein aufstrebendes Feld handelt, gehören zu den ersten Anbietern QueryPal, Promptable, Rebuff und TrueLens. Mit der Weiterentwicklung der Prompt-Operationen werden diese Plattformen kontinuierlich iterieren, sich verbessern und Echtzeit-Feedback liefern, um den Nutzern mehr Möglichkeiten zur kontinuierlichen Optimierung der Prompts zu geben, so Dep Prete.
Er prognostizierte, dass Agenten irgendwann in der Lage sein werden, Eingabeaufforderungen selbstständig zu optimieren, zu schreiben und zu strukturieren. „Der Automatisierungsgrad wird zunehmen, der menschliche Interaktionsanteil wird abnehmen, und Agenten werden autonomer mit den von ihnen erstellten Eingabeaufforderungen umgehen können.“
Solange Prompt-Operationen nicht vollständig umgesetzt sind, gibt es letztlich keinen perfekten Prompt. Einige der größten Fehler, die laut Emerson gemacht werden:
- Das zu lösende Problem ist nicht spezifisch genug beschrieben. Dies umfasst die Art und Weise, wie der Nutzer die Antwort des Modells erwartet, was bei der Antwort berücksichtigt werden sollte, welche Einschränkungen zu berücksichtigen sind und weitere Faktoren. „In vielen Situationen benötigen Modelle einen guten Kontext, um eine Antwort zu liefern, die den Erwartungen der Nutzer entspricht“, sagte Emerson.
- Die Möglichkeiten zur Vereinfachung eines Problems, um den Umfang der Antwort einzuschränken, werden nicht berücksichtigt. Sollte die Antwort in einem bestimmten Bereich (0 bis 100) liegen? Sollte die Antwort als Multiple-Choice-Aufgabe und nicht als offene Frage formuliert werden? Kann der Benutzer gute Beispiele liefern, um die Abfrage zu kontextualisieren? Kann das Problem in Schritte für separate und einfachere Abfragen unterteilt werden?
- Struktur nicht nutzen. LLMs sind sehr gut in der Mustererkennung und viele können Code verstehen. Obwohl Aufzählungspunkte, detaillierte Listen oder fettgedruckte Markierungen (****) für das menschliche Auge etwas überladen wirken können, bemerkte Emerson, können diese Hinweise für einen LLM von Vorteil sein. Die Anforderung strukturierter Ausgaben (wie JSON oder Markdown) kann auch hilfreich sein, wenn Benutzer Antworten automatisch verarbeiten möchten.
Emerson wies darauf hin, dass bei der Aufrechterhaltung einer Produktionspipeline viele weitere Faktoren zu berücksichtigen sind, die auf bewährten technischen Verfahren basieren. Dazu gehören:
- Sicherstellen, dass der Durchsatz der Pipeline konstant bleibt;
- Überwachung der Leistung der Eingabeaufforderungen im Laufe der Zeit (ggf. anhand eines Validierungssatzes);
- Einrichten von Tests und Frühwarnerkennung zur Identifizierung von Pipeline-Problemen.
Nutzer können außerdem Tools nutzen, die den Eingabeaufforderungsprozess unterstützen. Beispielsweise kann die Open-Source -Software DSPy Eingabeaufforderungen für nachfolgende Aufgaben anhand einiger gekennzeichneter Beispiele automatisch konfigurieren und optimieren. Dies mag zwar ein recht anspruchsvolles Beispiel sein, es gibt jedoch viele weitere Angebote (darunter einige, die in Tools wie ChatGPT, Google und anderen integriert sind), die bei der Gestaltung von Eingabeaufforderungen helfen können.
Und schließlich sagte Emerson: „Ich denke, das Einfachste, was Benutzer tun können, ist, zu versuchen, über effektive Eingabeaufforderungsansätze, Modellentwicklungen und neue Möglichkeiten zur Konfiguration und Interaktion mit Modellen auf dem Laufenden zu bleiben.“
venturebeat