Модель минимализма: новая стратегия ИИ экономит компаниям миллионы

Эта статья является частью специального выпуска VentureBeat «Реальная стоимость ИИ: производительность, эффективность и окупаемость инвестиций в масштабе». Подробнее читайте в этом специальном выпуске.
Появление больших языковых моделей (LLM) облегчило предприятиям задачу по прогнозированию типов проектов, которые они могут реализовать, что привело к всплеску пилотных программ, которые сейчас переходят к развертыванию.
Однако по мере того, как эти проекты набирали обороты, предприятия осознали, что прежние степени магистра права, которые они использовали, были громоздкими и, что еще хуже, дорогими.
Введите малые языковые модели и дистилляцию. Такие модели, как семейство Gemma от Google , Phi от Microsoft и Small 3.1 от Mistral , позволили компаниям выбирать быстрые и точные модели, которые подходят для конкретных задач. Предприятия могут выбрать меньшую модель для определенных случаев использования, что позволяет им снизить стоимость работы своих приложений ИИ и потенциально достичь лучшей окупаемости инвестиций.
Известный инженер LinkedIn Картик Рамгопал рассказал VentureBeat, что компании выбирают модели меньшего размера по нескольким причинам.
«Меньшие модели требуют меньше вычислений, памяти и более быстрого времени вывода, что напрямую приводит к снижению операционных расходов (операционных расходов) и капитальных затрат (капитальных расходов) на инфраструктуру с учетом затрат на GPU, доступности и требований к питанию», — сказал Рамгопл. «Модели, ориентированные на конкретные задачи, имеют более узкую область действия, что делает их поведение более согласованным и поддерживаемым с течением времени без сложной оперативной инженерии».
Разработчики моделей оценивают свои небольшие модели соответственно. Стоимость o4-mini от OpenAI составляет $1,1 за миллион токенов для входов и $4,4/миллион токенов для выходов, по сравнению с полной версией o3, которая стоит $10 за входы и $40 за выходы.
Сегодня предприятия имеют более широкий выбор небольших моделей, моделей для конкретных задач и дистиллированных моделей . В наши дни большинство флагманских моделей предлагают ряд размеров. Например, семейство моделей Claude от Anthropic включает Claude Opus, самую большую модель, Claude Sonnet, универсальную модель , и Claude Haiku, самую маленькую версию. Эти модели достаточно компактны, чтобы работать на портативных устройствах, таких как ноутбуки или мобильные телефоны.
Однако при обсуждении окупаемости инвестиций всегда возникает вопрос: как выглядит окупаемость инвестиций? Должна ли она быть окупаема на понесенные затраты или экономией времени, которая в конечном итоге означает сэкономленные в будущем деньги? Эксперты, с которыми пообщался VentureBeat, заявили, что окупаемость инвестиций может быть трудно оценить, поскольку некоторые компании считают, что уже достигли окупаемости инвестиций, сократив время, затрачиваемое на задачу, в то время как другие ждут реальной экономии денег или привлечения большего количества клиентов, чтобы сказать, сработали ли инвестиции в ИИ.
Обычно предприятия рассчитывают ROI по простой формуле, описанной главным технологом Cognizant Рави Наарлой в посте : ROI = (Выгоды-Стоимость)/Стоимость. Но в программах ИИ выгоды не сразу очевидны. Он предлагает предприятиям определить выгоды, которых они ожидают достичь, оценить их на основе исторических данных, реалистично оценить общую стоимость ИИ, включая найм, внедрение и обслуживание, и понимать, что вы должны быть в этом на долгосрочную перспективу.
Эксперты утверждают, что небольшие модели позволяют сократить затраты на внедрение и обслуживание, особенно при тонкой настройке моделей для предоставления им большего контекста для вашего предприятия.
Ариджит Сенгупта, основатель и генеральный директор Aible , сказал, что то, как люди привносят контекст в модели, определяет, сколько экономии они могут получить. Для людей, которым требуется дополнительный контекст для подсказок, таких как длинные и сложные инструкции, это может привести к более высоким затратам на токены.
«Вы должны предоставить моделям контекст так или иначе; бесплатного обеда не бывает. Но с большими моделями это обычно делается путем помещения его в подсказку», — сказал он. «Подумайте о тонкой настройке и постобучении как об альтернативном способе предоставления моделям контекста. Я могу понести расходы в размере 100 долларов на постобучение, но это не астрономическая сумма».
Сенгупта сказал, что они увидели примерно 100-кратное сокращение затрат только за счет постобучения, часто снижая стоимость использования модели «с нескольких миллионов до примерно 30 000 долларов». Он указал, что эта цифра включает в себя эксплуатационные расходы на программное обеспечение и текущие расходы на модели и векторные базы данных.
«С точки зрения затрат на обслуживание, если вы делаете это вручную с привлечением экспертов, это может быть дорого, поскольку небольшие модели необходимо обучать повторно, чтобы они давали результаты, сопоставимые с результатами больших моделей», — сказал он.
Эксперименты, проведенные Aible, показали, что точно настроенная модель, ориентированная на конкретную задачу, хорошо работает в некоторых случаях использования, например, в случае LLM, что доказывает, что развертывание нескольких моделей, ориентированных на конкретные случаи использования, а не одной большой модели для всех задач является более экономически эффективным.
Компания сравнила постобученную версию Llama-3.3-70B-Instruct с меньшим параметром 8B той же модели. Модель 70B, постобученная за $11.30, была точна на 84% при автоматизированных оценках и на 92% при ручных оценках. После настройки до стоимости $4.58 модель 8B достигла точности на 82% при ручной оценке, что подойдет для более мелких, более целевых случаев использования.
Правильный размер моделей не обязательно должен идти за счет производительности. В наши дни организации понимают, что выбор модели означает не только выбор между GPT-4o и Llama-3.1; это знание того, что некоторые варианты использования, такие как суммирование или генерация кода, лучше обслуживаются небольшой моделью .
Дэниел Хоске, главный технический директор компании Cresta, поставщика продуктов искусственного интеллекта для контакт-центров, отметил, что начало разработки с LLM позволяет лучше информировать о потенциальной экономии средств.
«Вам следует начать с самой большой модели, чтобы увидеть, работает ли вообще то, что вы задумали, потому что если это не работает с самой большой моделью, это не значит, что это будет работать с моделями меньшего размера», — сказал он.
Рамгопал отметил, что LinkedIn следует схожей схеме, поскольку прототипирование — единственный способ, с помощью которого эти проблемы могут начать проявляться.
«Наш типичный подход к агентным вариантам использования начинается с универсальных LLM, поскольку их широкая обобщаемость позволяет нам быстро создавать прототипы, проверять гипотезы и оценивать соответствие продукта рынку», — сказал Рамгопал из LinkedIn. «По мере того, как продукт становится более зрелым и мы сталкиваемся с ограничениями по качеству, стоимости или задержке, мы переходим к более индивидуальным решениям».
На этапе экспериментов организации могут определить, что они больше всего ценят в своих приложениях ИИ. Понимание этого позволяет разработчикам лучше планировать, на чем они хотят сэкономить, и выбирать размер модели, который лучше всего соответствует их целям и бюджету.
Эксперты предупредили, что, хотя важно строить с моделями, которые лучше всего работают с тем, что они разрабатывают, LLM с высокими параметрами всегда будут дороже. Большие модели всегда будут требовать значительной вычислительной мощности.
Однако чрезмерное использование небольших и специализированных моделей также создает проблемы. Рахул Патхак, вице-президент по данным и ИИ GTM в AWS , сказал в сообщении в блоге, что оптимизация затрат достигается не только за счет использования модели с низкими потребностями в вычислительной мощности, но и за счет сопоставления модели с задачами. Меньшие модели могут не иметь достаточно большого контекстного окна для понимания более сложных инструкций, что приводит к увеличению нагрузки на сотрудников-людей и более высоким затратам.
Сенгупта также предупредил, что некоторые дистиллированные модели могут быть хрупкими, поэтому длительное использование может не привести к экономии.
Независимо от размера модели, игроки отрасли подчеркивали гибкость в решении любых потенциальных проблем или новых вариантов использования. Поэтому, если они начинают с большой модели и меньшей модели с аналогичной или лучшей производительностью и более низкой стоимостью, организации не могут быть щепетильны в отношении выбранной ими модели.
Тесса Берг, технический директор и руководитель отдела инноваций в маркетинговой компании Mod Op , рассказала VentureBeat, что организации должны понимать: все, что они создают сейчас, всегда будет заменено лучшей версией.
« Мы начали с того, что технология, лежащая в основе рабочих процессов, которые мы создаем, процессов, которые мы делаем более эффективными, изменится. Мы знали, что любая модель, которую мы используем, будет худшей версией модели».
Бург сказала, что модели меньшего размера помогли сэкономить время ее компании и ее клиентам на исследования и разработку концепций. Сэкономленное время, сказала она, со временем приводит к экономии бюджета. Она добавила, что хорошей идеей является выделение дорогостоящих, высокочастотных вариантов использования для легких моделей.
Сенгупта отметил, что теперь поставщики упрощают автоматическое переключение между моделями, но предостерег пользователей от поиска платформ, которые также облегчают тонкую настройку, чтобы им не пришлось нести дополнительные расходы.
venturebeat