rBio от Chan Zuckerberg Initiative использует виртуальные клетки для обучения ИИ, минуя лабораторные исследования

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Инициатива Чан-Цукерберга объявила в четверг о запуске rBio — первой модели искусственного интеллекта, обученной рассуждать о клеточной биологии с использованием виртуального моделирования, а не дорогостоящих лабораторных экспериментов. Это прорыв, который может значительно ускорить биомедицинские исследования и разработку лекарств.
Модель рассуждений, подробно описанная в исследовательской статье , опубликованной на bioRxiv , демонстрирует новый подход, называемый « мягкой верификацией », который использует прогнозы виртуальных клеточных моделей в качестве обучающих сигналов, а не опирается исключительно на экспериментальные данные. Этот сдвиг парадигмы может помочь исследователям проверять биологические гипотезы вычислительными методами, прежде чем тратить время и ресурсы на дорогостоящие лабораторные исследования.
«Идея заключается в том, что у вас есть эти сверхмощные модели клеток, которые можно использовать для моделирования результатов, а не для экспериментальной проверки в лаборатории», — сказала Ана-Мария Истрате, старший научный сотрудник CZI и ведущий автор исследования, в интервью. «До сих пор парадигма заключалась в том, что 90% работы в области биологии проверялось экспериментально в лаборатории, а 10% — вычислительно. С помощью виртуальных моделей клеток мы хотим перевернуть эту парадигму».
Это заявление представляет собой важную веху на пути к амбициозной цели CZI — «лечить, предотвращать и контролировать все заболевания к концу этого столетия». Под руководством педиатра Присциллы Чан и генерального директора Meta Марка Цукерберга благотворительная инициатива стоимостью 6 миллиардов долларов все больше сосредотачивает свои ресурсы на стыке искусственного интеллекта и биологии .
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
rBio решает фундаментальную задачу применения ИИ в биологических исследованиях. Хотя большие языковые модели, такие как ChatGPT, отлично справляются с обработкой текста, биологические фундаментальные модели обычно работают со сложными молекулярными данными, к которым сложно обращаться на естественном языке. Учёные изо всех сил пытаются преодолеть этот разрыв между мощными биологическими моделями и удобными пользовательскими интерфейсами.
«Фундаментальные модели биологии, такие как GREmLN и TranscriptFormer , построены на биологических модальностях данных, а это значит, что с ними невозможно взаимодействовать на естественном языке, — пояснил Истрате. — Приходится искать сложные способы взаимодействия с ними».
Новая модель решает эту проблему, обрабатывая знания из TranscriptFormer от CZI — виртуальной клеточной модели, обученной на 112 миллионах клеток 12 видов, охватывающих 1,5 миллиарда лет эволюции, — в диалоговой системе искусственного интеллекта, к которой исследователи могут обращаться с запросами на простом английском языке.
Основная инновация rBio заключается в методологии обучения . Традиционные модели рассуждений обучаются на вопросах с однозначными ответами, например, на математических уравнениях. Однако биологические вопросы предполагают неопределенность и вероятностные результаты, которые сложно уложить в бинарные категории.
Исследовательская группа CZI под руководством старшего директора по искусственному интеллекту Теофаниса Каралетсоса и Истрате преодолела эту проблему, используя обучение с подкреплением и пропорциональные вознаграждения. Вместо простой проверки «да» или «нет» модель получает вознаграждение, пропорциональное вероятности соответствия её биологических предсказаний реальности, определяемой с помощью виртуального моделирования клеток.
«Мы применили новые методы к обучению LLM», — поясняется в исследовательской работе . «Используя готовую языковую модель в качестве основы, команда обучила rBio с помощью обучения с подкреплением — распространённого метода, при котором модель вознаграждается за правильные ответы. Но вместо того, чтобы задавать серию вопросов с ответами «да/нет», исследователи настраивали вознаграждение пропорционально вероятности правильности ответов модели».
Такой подход позволяет ученым задавать сложные вопросы, например: «Приведет ли подавление действия гена А к повышению активности гена В?», и получать научно обоснованные ответы об изменениях в клетках, включая переходы от здорового состояния к болезненному.
В ходе тестирования с использованием бенчмарка PerturbQA — стандартного набора данных для оценки прогнозирования генных пертурбаций — rBio продемонстрировала конкурентоспособную производительность по сравнению с моделями, обученными на экспериментальных данных. Система превзошла базовые модели больших языков и достигла результатов специализированных биологических моделей по ключевым показателям.
Особого внимания заслуживает тот факт, что rBio продемонстрировал сильные возможности « переноса обучения », успешно применив знания о закономерностях совместной экспрессии генов, полученные с помощью TranscriptFormer, для составления точных прогнозов относительно эффектов возмущения генов, что является совершенно другой биологической задачей.
«Мы показываем, что на наборе данных PerturbQA модели, обученные с использованием мягких верификаторов, учатся обобщать данные на клеточных линиях, не входящих в распределение, что потенциально позволяет избежать необходимости обучения на экспериментальных данных, специфичных для клеточных линий», — пишут исследователи.
Благодаря усовершенствованию с помощью методов побуждения к последовательному мышлению, которые поощряют пошаговое рассуждение, rBio достигла высочайших показателей производительности, превзойдя предыдущую ведущую модель SUMMER .
Объявление о создании rBio появилось на фоне значительных организационных изменений в CZI, которые переориентировали её деятельность с широкой филантропической миссии, включавшей социальную справедливость и реформу образования, на более целенаправленный акцент на научные исследования. Этот сдвиг вызвал критику со стороны некоторых бывших сотрудников и грантополучателей, которые видели, как организация отказалась от прогрессивных идей.
Однако для Истрате, проработавшей в CZI шесть лет, ориентация на биологический ИИ представляет собой естественное развитие давних приоритетов. «Мой опыт и работа практически не изменились. Я участвую в этой научной инициативе с тех пор, как работаю в CZI», — сказала она.
Концентрация на виртуальных клеточных моделях основана на почти десятилетнем фундаментальном опыте. CZI вложил значительные средства в создание клеточных атласов — комплексных баз данных, показывающих, какие гены активны в разных типах клеток у разных видов, — и в разработку вычислительной инфраструктуры, необходимой для обучения крупных биологических моделей.
«Я действительно воодушевлен работой, которая ведется в CZI уже много лет, потому что мы шли к этому моменту», — отметил Истрате, имея в виду предыдущие инвестиции организации в платформы данных и транскриптомику отдельных клеток.
Одно из важнейших преимуществ подхода CZI обусловлено многолетним тщательным сбором данных. Организация управляет CZ CELLxGENE , одним из крупнейших хранилищ биологических данных об отдельных клетках, где информация проходит строгий контроль качества.
«Мы создали некоторые из ведущих атласов исходных данных для транскриптомики, и они были созданы с учетом разнообразия, чтобы свести к минимуму смещения с точки зрения типов клеток, происхождения, тканей и доноров», — пояснил Истрате.
Такое внимание к качеству данных становится критически важным при обучении моделей ИИ, которые могут влиять на медицинские решения. В отличие от некоторых коммерческих проектов ИИ, которые опираются на общедоступные, но потенциально предвзятые наборы данных, модели CZI используют тщательно отобранные биологические данные, представляющие различные популяции и типы клеток.
Приверженность CZI разработке ПО с открытым исходным кодом отличает её от коммерческих конкурентов, таких как Google DeepMind и фармацевтических компаний, разрабатывающих собственные инструменты искусственного интеллекта. Все модели CZI, включая rBio, доступны бесплатно через платформу Virtual Cell Platform организации и сопровождаются обучающими материалами, которые можно запускать в бесплатных блокнотах Google Colab.
«Я действительно считаю, что открытый исходный код очень важен, потому что это наша основная ценность с момента основания CZI», — сказал Истрате. «Одна из главных целей нашей работы — ускорить развитие науки. Поэтому всё, что мы делаем, мы хотим сделать открытым исходным кодом исключительно для этой цели».
Эта стратегия направлена на демократизацию доступа к сложным биологическим инструментам искусственного интеллекта, что потенциально выгодно небольшим исследовательским институтам и стартапам, не имеющим ресурсов для самостоятельной разработки подобных моделей. Этот подход отражает филантропическую миссию CZI и одновременно создаёт сетевые эффекты, способные ускорить научный прогресс.
Потенциальные области применения выходят далеко за рамки академических исследований. Позволяя учёным быстро проверять гипотезы о взаимодействии генов и клеточных реакциях, rBio может значительно ускорить ранние этапы разработки лекарств — процесс, который обычно занимает десятилетия и стоит миллиарды долларов.
Способность модели предсказывать, как изменения в генах влияют на поведение клеток, может оказаться особенно ценной для понимания нейродегенеративных заболеваний, таких как болезнь Альцгеймера, где исследователям необходимо определить, как конкретные генетические изменения способствуют прогрессированию заболевания.
«Ответы на эти вопросы могут сформировать наше понимание взаимодействия генов, способствующих развитию нейродегенеративных заболеваний, таких как болезнь Альцгеймера», — отмечается в исследовательской работе. «Такие знания могут привести к более раннему вмешательству, которое, возможно, когда-нибудь позволит полностью остановить эти заболевания».
rBio представляет собой первый шаг в реализации более широкой концепции CZI по созданию «универсальных виртуальных клеточных моделей», интегрирующих знания из различных биологических областей. В настоящее время исследователям приходится работать с отдельными моделями для разных типов биологических данных — транскриптомики, протеомики и визуализации — без простых способов объединения результатов.
«Одна из наших главных задач — создание виртуальных клеточных моделей и понимание клеток. Как я уже упоминал, в ближайшие пару лет мы должны интегрировать знания из всех этих мощнейших биологических моделей», — сказал Истрате. «Главная задача — как объединить все эти знания в единое пространство?»
Исследователи продемонстрировали эту интеграционную возможность, обучив модели rBio, объединяющие несколько источников верификации — TranscriptFormer для данных об экспрессии генов, специализированные нейронные сети для прогнозирования возмущений и базы знаний, такие как Gene Ontology . Эти комбинированные модели значительно превзошли подходы с одним источником.
Несмотря на многообещающие результаты, rBio сталкивается с рядом технических проблем. В настоящее время модель сосредоточена в основном на прогнозировании генных нарушений, хотя исследователи отмечают, что теоретически любой биологический домен, охватываемый TranscriptFormer, может быть интегрирован.
Команда продолжает работать над улучшением пользовательского опыта и внедрением соответствующих ограничений, чтобы модель не выдавала ответы, выходящие за рамки ее компетенции, что является распространенной проблемой при развертывании крупных языковых моделей для специализированных доменов.
«В то время как rBio готов к исследованию, команда инженеров модели продолжает улучшать пользовательский интерфейс, поскольку гибкое решение проблем, делающее модели рассуждений диалоговыми, также создает ряд сложностей», — поясняется в исследовательской статье.
Разработка rBio происходит на фоне растущей конкуренции в сфере разработки лекарственных препаратов с использованием ИИ. Крупные фармацевтические компании и технологические компании инвестируют миллиарды долларов в возможности биологического ИИ, осознавая их потенциал для преобразования методов поиска и разработки лекарств.
Открытый подход CZI может ускорить эту трансформацию, сделав сложные инструменты доступными для более широкого исследовательского сообщества. Исследователи, биотехнологические стартапы и даже солидные фармацевтические компании теперь могут получить доступ к возможностям, которые в противном случае потребовали бы значительных внутренних усилий по разработке ИИ.
Время оказалось весьма кстати, поскольку администрация Трампа предложила существенно сократить бюджет Национальных институтов здравоохранения, что потенциально ставит под угрозу государственное финансирование биомедицинских исследований. Продолжение инвестиций CZI в биологическую инфраструктуру ИИ может помочь сохранить исследовательский импульс в периоды сокращения государственной поддержки.
Запуск rBio знаменует собой не просто очередной прорыв в области искусственного интеллекта, но и фундаментальный сдвиг в подходах к проведению биологических исследований. Продемонстрировав, что виртуальное моделирование позволяет обучать модели так же эффективно, как и дорогостоящие лабораторные эксперименты, CZI открыла исследователям по всему миру возможность ускорить свою работу, не ограничиваясь традиционными временными, финансовыми и физическими ресурсами.
В то время как CZI готовится сделать rBio доступным бесплатно через свою платформу Virtual Cell Platform, организация продолжает расширять возможности биологического ИИ, используя такие модели, как GREmLN для диагностики рака, и продолжая работу над технологиями визуализации. Успех подхода «мягкой верификации» может повлиять на то, как другие организации обучают ИИ для научных приложений, потенциально снижая зависимость от экспериментальных данных при сохранении научной строгости.
Для организации, которая начинала с амбициозной цели — излечить все болезни к концу века, rBio предлагает то, чего долгое время не хватало исследователям-медикам: возможность задавать самые сложные вопросы биологии и получать научно обоснованные ответы за время, необходимое для набора предложения. В области, где прогресс традиционно измерялся десятилетиями, такая скорость может иметь решающее значение между болезнями, которые определяют поколения, и болезнями, которые становятся далёкими воспоминаниями.
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat