Google сообщает о прогрессе универсальной модели речи USM

Алла Конака08.03.2023

0 863 2 минут(ы) на чтение

В ноябре 2022 года Google объявил, что приступает к инициативе, кульминацией которой станет разработка модели машинного обучения, способной распознавать и переводить 1000 самых распространенных языков мира. В течение последних нескольких месяцев компания работала над достижением этой цели и опубликовала запись в блоге членов команды, работающей над проектом.

Команда Google также опубликовала документ, описывающий внедрение универсальной модели речи (USM) на сервере препринтов arXiv.

Обновления, предоставляемые Google, являются частью более важной цели: создать языковой переводчик, использующий автоматическое распознавание речи (ASR), способный переводить любой язык мира по запросу.

С этой целью они решили временно ограничить количество языков, которые они пытаются поддерживать (до 100), из-за небольшого числа людей, говорящих на менее распространенных языках. В таких редких языках отсутствуют наборы данных для обучения.

В рамках своего объявления Google наметил первые шаги к своей USM, разбив ее на семейства речевых моделей, обученных на миллиардах часов записанной речи и охватывающих более 300 языков.

Они отмечают, что USM уже используется для языковых переводов с субтитрами на YouTube. Команда Google также обрисовывает в общих чертах модель для каждого из семейств.

Google объясняет, что модели создаются с использованием обучающих «конвейеров», которые включают три типа наборов данных: непарный звук, непарный текст и парные данные ASR.

Они также отмечают, что используют конформерные модели для обработки ожидаемых параметров 2B, необходимых для проекта, и будут делать это, используя три основных этапа: неконтролируемое предварительное обучение, многоцелевое контролируемое предварительное обучение и контролируемое обучение ASR. Конечным результатом будет создание двух типов моделей — предварительно обученных и моделей ASR.

Google также утверждает, что в своем нынешнем состоянии его USM показала производительность, сравнимую или превосходящую модель Whisper — модель распознавания речи общего назначения, созданную сообществом GitHub.

Ожидается, что помимо использования USM для YouTube, Google соединит свою модель с другими приложениями ИИ, включая устройства дополненной реальности.