Новый искусственный интеллект Google Gemini превосходит ChatGPT и экспертов-людей

Руслан Пономарев08.12.2023

0 532 2 минут(ы) на чтение

Google представил свой ИИ Gemini следующего поколения, заявив, что он превосходит GPT-4 от OpenAI, а также экспертов-людей, почти во всех основных тестах. Он понимает изображения, видео и аудио, а также текст и код и со временем приобретет другие способности.

Имея результат 90,0% по тесту MMLU (понимание языка в условиях многозадачности), это первая модель, превзошедшая экспертов-людей (89,8%), а также GPT-4 (86,4%) в ряде задач по сбору знаний и решению проблем из 57 предметов, включая математику, физику, историю, право, медицину и этику. И это эксперты, а не обычные люди.

Gemini изначально является мультимодальным — это означает, что его исходный набор обучающих данных помимо текста содержал массу других медиа.

Таким образом, можно сказать, что он так же хорошо воспринимает визуальное и слуховое «понимание», как и текст.

В то время как другие языковые модели имеют тенденцию «думать» в текстовых терминах при просмотре видео и изображений, Gemini сохраняет весь тон и нюансы исходных источников видео, аудио и изображений.

В настоящее время ИИ обучаются с использованием все более обширных наборов сенсорных данных, чтобы имитировать процессы, с помощью которых люди учатся взаимодействовать с миром.

Благодаря визуальному и слуховому пониманию нового уровня восприятие и мышление Gemini делают шаг вперед. Как только эта штука появится на устройствах Google, она сможет помогать во всех видах повседневных задач.

Как рассказал генеральный директор Google Deepmind Демис Хассабис, вскоре это распространится на следующую логическую сенсорную сферу: прикосновение и тактильную обратную связь.

Google уже является крупным игроком в области искусственного интеллекта-робототехники, но внедрение сверхзнающей модели, такой как Gemini, способной понимать мир посредством прикосновения, выведет робототехнику – гуманоидную и не только – на неизведанную территорию.

Google планирует выпустить новый искусственный интеллект в трех типоразмерах модели: Gemini Nano, созданной для установки прямо на борту мобильных устройств, Gemini Pro — грубый эквивалент GPT 3.5, который станет основной рабочей лошадкой для большинства задач, и Gemini Ultra — самая крупная модель, которая, по словам Google, легко превосходит GPT-4 в широком спектре тестов производительности.

Публичный запуск Gemini Ultra запланирован на следующий год, после того как он будет тщательно проверен на предмет проблем безопасности и выравнивания.

Именно тогда можно будет понять, в чем именно он превосходит GPT-4. Тем временем Gemini Nano уже доступен на смартфоне Pixel 8 Pro и вскоре начнет распространяться на другие модели. Кроме того, Google работает над интеграцией модели Gemini практически в каждый продукт, который он производит.