Китайский стартап в сфере искусственного интеллекта DeepSeek совершил прорыв в области моделей вознаграждения, что может существенно улучшить способность систем ИИ рассуждать и отвечать на вопросы. В партнёрстве с исследователями из Университета Цинхуа компания разработала технику, описанную в научной статье под названием «Масштабирование во время вывода для моделирования общих вознаграждений».
Модели вознаграждения являются важным компонентом обучения с подкреплением для больших языковых моделей. Они предоставляют сигналы обратной связи, которые помогают направлять поведение ИИ к предпочтительным результатам. Проще говоря, модели вознаграждения — это своего рода цифровые учителя, которые помогают ИИ понять, чего люди хотят от их ответов.
С усложнением ИИ и их применением в ситуациях, выходящих за рамки простых задач по ответам на вопросы, моделирование вознаграждений становится всё более актуальным. Существующие модели вознаграждений хорошо работают для проверяемых вопросов или искусственных правил, но сталкиваются с трудностями в общих областях, где критерии более разнообразны и сложны.
Компания DeepSeek использует комбинацию двух методов
Генеративное моделирование вознаграждений (GRM) — этот подход обеспечивает гибкость в различных типах входных данных и позволяет масштабировать их во время вывода. В отличие от предыдущих скалярных или полускалярных подходов, GRM предоставляет более богатое представление о вознаграждениях с помощью языка.
Самостоятельная настройка критических замечаний (SPCT) — метод обучения, который способствует масштабируемому генерированию вознаграждений в GRMs с помощью онлайн-обучения с подкреплением, при котором принципы генерируются адаптивно.
Сочетание этих методов позволяет «генерировать принципы на основе входного запроса и ответов, адаптивно согласовывая процесс генерации вознаграждений».
Инновации DeepSeek имеют важное значение для развития ИИ. Новый подход к моделированию вознаграждений может привести к более точным системам обратной связи, повышению адаптивности ИИ, более широкому применению в различных задачах и более эффективному использованию ресурсов.
Исследователи обнаружили, что их методы могут достигать лучших результатов при увеличении выборки, позволяя моделям генерировать лучшие вознаграждения с большими вычислительными мощностями. Это означает, что меньшие модели могут работать наравне с более крупными при наличии соответствующих ресурсов во время вывода.
Работа DeepSeek и Университета Цинхуа демонстрирует, что инновации в области того, как и когда модели обучаются, могут быть столь же важны, как и увеличение их размера. Сосредоточившись на качестве обратной связи и масштабируемости, DeepSeek решает одну из фундаментальных задач создания ИИ, который понимает и согласовывается с человеческими предпочтениями.
Развитие моделей вознаграждения, подобных тем, что разработаны DeepSeek, вероятно, окажет влияние на способности и поведение ИИ в будущем. Это подчёркивает важность исследований в этой области для создания более эффективных и адаптивных систем ИИ.
Комментарии
Отправить комментарий