Рост числа оперативных операций: борьба со скрытыми издержками ИИ, связанными с неверными входными данными и раздутым контекстом

Эта статья является частью специального выпуска VentureBeat «Реальная стоимость ИИ: производительность, эффективность и окупаемость инвестиций в масштабе». Подробнее читайте в этом специальном выпуске.
Поставщики моделей продолжают разрабатывать все более сложные большие языковые модели (LLM) с более длинными контекстными окнами и улучшенными возможностями рассуждений.
Это позволяет моделям обрабатывать и «думать» больше, но также увеличивает вычислительную мощность: чем больше модель потребляет и выдает, тем больше энергии она потребляет и тем выше затраты.
Добавьте к этому все сложности, связанные с подсказками (может потребоваться несколько попыток, чтобы получить желаемый результат, а иногда для решения поставленной задачи просто не нужна модель, способная мыслить как доктор наук), и затраты на вычисления могут выйти из-под контроля.
Это дает толчок развитию оперативных операций — совершенно новой дисциплины на заре эпохи ИИ .
«Проектирование Prompt похоже на написание, фактическое создание, тогда как Prompt Ops похож на публикацию, где вы развиваете контент», — сказал VentureBeat Кроуфорд Дель Прете, президент IDC . «Контент живой, контент меняется, и вы хотите убедиться, что вы совершенствуете его с течением времени».
Использование вычислений и стоимость — это два «связанных, но отдельных понятия» в контексте LLM, объяснил Дэвид Эмерсон, прикладной ученый из Vector Institute . Как правило, цена, которую платят пользователи, зависит как от количества входных токенов (то, что подсказывает пользователь), так и от количества выходных токенов (то, что выдает модель). Однако они не меняются для скрытых действий, таких как мета-подсказки, инструкции по управлению или генерация дополненного поиска (RAG).
Хотя более длинный контекст позволяет моделям обрабатывать гораздо больше текста одновременно, он напрямую транслируется в значительно большее количество FLOPS (измерение вычислительной мощности), пояснил он. Некоторые аспекты моделей трансформаторов даже масштабируются квадратично с длиной входных данных, если ими не управлять должным образом. Излишне длинные ответы также могут замедлить время обработки и потребовать дополнительных вычислений и затрат на создание и поддержку алгоритмов для постобработки ответов в ответ, на который надеялись пользователи.
Обычно более длинные контекстные среды стимулируют поставщиков намеренно предоставлять подробные ответы, сказал Эмерсон. Например, многие более сложные модели рассуждений (например , o3 или o1 из OpenAI ) часто будут предоставлять длинные ответы даже на простые вопросы, что влечет за собой большие вычислительные затраты.
Вот пример:
Ввод : Ответьте на следующую математическую задачу. Если у меня есть 2 яблока и я куплю еще 4 в магазине после того, как съел 1, сколько яблок у меня будет?
Вывод : Если я съем 1, у меня останется только 1. У меня будет 5 яблок, если я куплю еще 4.
Модель не только сгенерировала больше токенов, чем нужно, но и похоронила свой ответ. Инженеру, возможно, придется разработать программный способ извлечения окончательного ответа или задать дополнительные вопросы, например «Каков ваш окончательный ответ?», что потребует еще больших затрат на API.
В качестве альтернативы можно перепроектировать подсказку, чтобы направить модель на получение немедленного ответа. Например:
Ввод : Ответьте на следующую математическую задачу. Если у меня есть 2 яблока и я куплю еще 4 в магазине после того, как съел 1, сколько яблок у меня будет? Начните свой ответ с «Ответ»…
Или:
Ввод : Ответьте на следующую математическую задачу. Если у меня есть 2 яблока и я куплю еще 4 в магазине после того, как съел 1, сколько у меня будет яблок? Выделите свой окончательный ответ жирным шрифтом .
«То, как задается вопрос, может сократить усилия или затраты на получение желаемого ответа», — сказал Эмерсон. Он также указал, что такие методы, как подсказки с несколькими кадрами (предоставление нескольких примеров того, что ищет пользователь), могут помочь быстрее выдавать результаты.
Эмерсон отметил, что одной из опасностей является незнание того, когда следует использовать сложные методы, такие как подсказки в виде цепочки мыслей (CoT) (пошаговое создание ответов) или самосовершенствование, которые напрямую побуждают модели производить множество токенов или проходить несколько итераций при создании ответов.
Он подчеркнул, что не каждый запрос требует анализа и повторного анализа модели перед предоставлением ответа; они вполне могут отвечать правильно, если им прямо поручено отвечать. Кроме того, неправильные конфигурации API подсказок (например, OpenAI o3, требующие больших усилий по рассуждению) повлекут за собой более высокие затраты, когда было бы достаточно более дешевого запроса с меньшими усилиями.
«При более длинных контекстах пользователи также могут поддаться искушению использовать подход «все, кроме кухонной раковины», когда вы вставляете как можно больше текста в контекст модели в надежде, что это поможет модели выполнить задачу точнее», — сказал Эмерсон. «Хотя больший контекст может помочь моделям выполнять задачи, это не всегда лучший или самый эффективный подход».
Не секрет, что в наши дни трудно найти инфраструктуру, оптимизированную для ИИ; Дель Прете из IDC отметил, что предприятия должны иметь возможность минимизировать время простоя графического процессора и выполнять больше запросов в циклах простоя между запросами графического процессора.
«Как мне выжать больше из этих очень, очень ценных товаров?» — отметил он. «Потому что мне нужно повысить загрузку моей системы, потому что у меня просто нет возможности просто направить больше мощности на решение проблемы».
Prompt ops может внести большой вклад в решение этой проблемы, поскольку в конечном итоге управляет жизненным циклом подсказки. В то время как проектирование подсказок касается качества подсказки, prompt ops — это то, где вы повторяетесь, объяснил Дель Прете.
«Это больше оркестровка», — сказал он. «Я думаю об этом как о курировании вопросов и курировании того, как вы взаимодействуете с ИИ, чтобы убедиться, что вы извлекаете из него максимальную пользу».
Модели могут «уставать», зацикливаясь на циклах, где качество выходных данных ухудшается, сказал он. Оперативники подсказок помогают управлять, измерять, контролировать и настраивать подсказки. «Я думаю, когда мы оглянемся назад на три-четыре года, это будет целая дисциплина. Это будет навык».
Хотя это все еще очень молодая область, ранние поставщики включают QueryPal, Promptable, Rebuff и TrueLens. По мере развития подсказок эти платформы будут продолжать итерироваться, совершенствоваться и предоставлять обратную связь в реальном времени, чтобы дать пользователям больше возможностей для настройки подсказок с течением времени, отметил Деп Прет.
В конце концов, предсказал он, агенты смогут самостоятельно настраивать, писать и структурировать подсказки. «Уровень автоматизации возрастет, уровень человеческого взаимодействия снизится, вы сможете заставить агентов действовать более автономно в подсказках, которые они создают».
Пока prompt ops не будет полностью реализован, в конечном итоге не будет идеального prompt. Некоторые из самых больших ошибок, которые совершают люди, по словам Эмерсона:
- Недостаточно конкретная проблема, которую нужно решить. Сюда входит то, как пользователь хочет, чтобы модель предоставила свой ответ, что следует учитывать при ответе, ограничения, которые следует учитывать, и другие факторы. «Во многих ситуациях моделям требуется достаточное количество контекста, чтобы предоставить ответ, который соответствует ожиданиям пользователей», — сказал Эмерсон.
- Не принимая во внимание способы упрощения проблемы для сужения области ответа. Должен ли ответ быть в определенном диапазоне (от 0 до 100)? Должен ли ответ быть сформулирован как проблема с множественным выбором, а не как что-то открытое? Может ли пользователь привести хорошие примеры для контекстуализации запроса? Можно ли разбить проблему на шаги для отдельных и более простых запросов?
- Неиспользование структуры. LLM очень хороши в распознавании образов, и многие могут понимать код. Хотя использование маркеров, подробных списков или жирных индикаторов (****) может показаться «немного загроможденным» для человеческого глаза, отметил Эмерсон, эти выноски могут быть полезны для LLM. Запрос структурированных выходных данных (таких как JSON или Markdown) также может помочь, когда пользователи хотят обрабатывать ответы автоматически.
Emerson отметил, что при обслуживании производственного трубопровода следует учитывать множество других факторов, основанных на передовых инженерных практиках. К ним относятся:
- Обеспечение постоянной пропускной способности трубопровода;
- Мониторинг эффективности подсказок с течением времени (возможно, с использованием проверочного набора);
- Организация испытаний и раннего обнаружения проблем с трубопроводами.
Пользователи также могут воспользоваться инструментами, разработанными для поддержки процесса подсказок. Например, DSPy с открытым исходным кодом может автоматически настраивать и оптимизировать подсказки для последующих задач на основе нескольких помеченных примеров. Хотя это может быть довольно сложным примером, существует множество других предложений (включая некоторые встроенные в такие инструменты, как ChatGPT, Google и другие), которые могут помочь в разработке подсказок.
И в конечном итоге, сказал Эмерсон, «я думаю, что одно из самых простых действий, которые могут выполнить пользователи, — это попытаться оставаться в курсе эффективных подходов к подсказкам, разработок моделей и новых способов настройки и взаимодействия с моделями».
venturebeat