Агенты ИИ — ужасные фрилансеры


Даже лучшие агенты искусственного интеллекта совершенно бесполезны в онлайн-фрилансе, согласно результатам эксперимента, который ставит под сомнение идею массовой замены офисных работников искусственным интеллектом.
Индекс удаленной работы — новый показатель, разработанный исследователями из компании по аннотации данных Scale AI и некоммерческой организацией Center for AI Safety (CAIS), измеряет способность современных моделей ИИ автоматизировать экономически значимую работу.
Исследователи предложили нескольким ведущим ИИ-агентам ряд имитированных фриланс-заданий и обнаружили, что даже лучшие из них могли выполнить менее 3% работы, заработав 1810 долларов из возможных 143 991. Исследователи рассмотрели несколько инструментов и пришли к выводу, что наиболее эффективным оказался Manus от одноименного китайского стартапа, за которым следуют Grok от xAI, Claude от Anthropic, ChatGPT от OpenAI и Gemini от Google.
«Надеюсь, это даст гораздо более точное представление о том, что происходит с возможностями ИИ», — говорит Дэн Хендрикс, директор CAIS. Он добавляет, что, хотя некоторые агенты значительно улучшили свои показатели за последний год, это не значит, что темпы роста останутся прежними.
Впечатляющие достижения в области искусственного интеллекта породили предположения о том, что искусственный интеллект вскоре превзойдёт человеческий интеллект и заменит огромное количество рабочих. В марте Дарио Амодеи, генеральный директор Anthropic, предположил, что 90% работы по программированию будут автоматизированы в течение нескольких месяцев.
Предыдущие волны ИИ породили необоснованные прогнозы о сокращении рабочих мест, например, относительно неминуемой замены рентгенологов алгоритмами ИИ.
Исследователи сгенерировали ряд фриланс-заданий с помощью проверенных сотрудников Upwork. Задания охватывают широкий спектр работ, включая графический дизайн, видеомонтаж, разработку игр и административную работу, например, сбор данных. Они объединили описание каждой работы с каталогом файлов, необходимых для выполнения работы, и примером готового проекта, созданного человеком.
Хендрикс говорит, что, хотя в последние годы модели ИИ стали лучше справляться с программированием , математикой и логическими рассуждениями , им всё ещё сложно использовать различные инструменты и выполнять сложные задачи, требующие множества шагов. «У них нет долговременной памяти, и они не могут постоянно учиться на собственном опыте. Они не могут приобретать навыки в процессе работы, как люди», — говорит он.
Анализ представляет собой альтернативу предложенному OpenAI в сентябре эталонному показателю экономической работы GDPval , который призван измерять экономически значимую работу. Согласно GDPval, передовые модели ИИ, такие как GPT-5, приближаются к человеческим возможностям по 220 задачам в различных офисных сферах. OpenAI не предоставила комментариев.
«Мы годами спорили об ИИ и рабочих местах, но большая часть этих споров была гипотетическими или теоретическими», — добавляет Бин Лю, директор по исследованиям в Scale AI.
Лю и Хендрикс признают, что новый бенчмарк не является идеальным мерилом экономического влияния ИИ. Многие профессии включают задачи, не охватываемые этим показателем. В реальности многие фрилансеры, вероятно, также используют ИИ как инструмент для повышения своей производительности.
Однако идея о том, что ИИ уже отнимает рабочие места, набирает обороты. На этой неделе Amazon объявила о сокращении 14 000 рабочих мест, что, по её словам, отчасти связано с быстрым развитием генеративного искусственного интеллекта. «Нынешнее поколение ИИ — самая преобразующая технология со времён Интернета», — написала Бет Галетти, старший вице-президент Amazon по взаимодействию с персоналом и технологиям, в опубликованной служебной записке. «Он позволяет компаниям внедрять инновации гораздо быстрее, чем когда-либо прежде (как в существующих сегментах рынка, так и в совершенно новых)».
Однако, если судить по индексу удаленной работы, то маловероятно, что ИИ займет какую-либо из этих освободившихся ролей.
Беспокоитесь, что ИИ отнимет у вас работу? Сообщите мне об этом, отправив письмо на адрес [email protected] .
Это выпуск информационного бюллетеня Лаборатории искусственного интеллекта Уилла Найта . Предыдущие выпуски можно прочитать здесь.
wired


