Яндекс анонсировал новую модель YandexGPT 5 и ее версии

Яндекс анонсировал новое поколение своих больших языковых моделей — YandexGPT 5. Это значительный шаг в развитии технологий искусственного интеллекта, который включает в себя две основные версии модели: YandexGPT 5 Pro и YandexGPT 5 Lite. Обе модели уже доступны для использования, причём старшая модель, YandexGPT 5 Pro, интегрирована в чат с Алисой и доступна через API в Yandex Cloud. Также впервые пользователи могут переключиться на базовую версию модели в чате с Алисой, которая не использует внешнюю информацию из Поиска и не была дообучена для выполнения функций виртуального ассистента.
Младшая модель, YandexGPT 5 Lite, представлена в двух версиях: pretrain и instruct. Pretrain-версия, YandexGPT 5 Lite 8B Pretrain, уже опубликована на платформе Hugging Face и доступна для свободного использования. Она предназначена для разработчиков, которые могут дообучать модель под свои задачи. Instruct-версия, которая будет доступна через API в ближайшее время, представляет собой дообученную версию модели, оптимизированную для выполнения конкретных инструкций.
Обучение YandexGPT 5 Lite проходило в два этапа. На первом этапе модель обучалась на русскоязычных и англоязычных текстах общим объёмом 15 триллионов токенов. Второй этап, названный Powerup, включал дообучение на высококачественных данных объёмом 320 миллиардов токенов. Это позволило модели достичь паритета с мировыми лидерами в своей категории по ряду ключевых бенчмарков, а по многим другим — превзойти их.
Одним из ключевых аспектов обучения YandexGPT 5 Lite стал подход к сбору данных. Около 30% токенов в обучающем корпусе приходится на русскоязычные тексты, а большая часть оставшихся — на английские. Для отбора данных использовались как классические эвристики, так и современные классификаторы, обученные на человеческой или LLM-разметке. Это позволило значительно улучшить качество данных и увеличить их объём.
Особое внимание было уделено математическим и кодовым данным. Для сбора математических данных использовался подход, схожий с DeepSeekMath, а для кодовых данных — эвристики, вдохновлённые OpenCoder. Это позволило улучшить качество модели в задачах, связанных с математикой и программированием.
Второй этап обучения, Powerup, включал дообучение на данных более высокого качества, что привело к значительному улучшению метрик модели. Например, на бенчмарке MMLU прирост составил 2 пункта, а на HumanEval — 10.4 пункта. Также на этом этапе было проведено расширение контекста до 32 тысяч токенов, что позволяет модели эффективно работать с длинными текстами.
YandexGPT 5 Pro, старшая модель, была обучена с использованием инновационного подхода, который включал инициализацию весов модели на основе общедоступной модели Qwen-2.5-32B-base. Это позволило значительно сократить время и ресурсы, необходимые для обучения, а также улучшить качество модели, особенно в задачах, связанных с русским языком и культурным контекстом.
YandexGPT 5 Pro уже доступна через API в Yandex Cloud, а также в чате с Алисой, где пользователи могут выбирать между базовой и дообученной версиями модели. Это открывает новые возможности для разработчиков и пользователей, позволяя им использовать мощь YandexGPT 5 Pro в различных приложениях и сервисах.
В целом, анонс YandexGPT 5 представляет собой значительный шаг вперед в области больших языковых моделей, демонстрируя, как инновационные подходы к обучению и сбору данных могут привести к созданию моделей, которые не только соответствуют мировым стандартам, но и превосходят их в ряде ключевых аспектов.