Новая модель искусственного интеллекта Sora преобразовывает текст в видео

Мир снова изменился.

Руслан Пономарев16.02.2024

0 1 070 4 минут(ы) на чтение

Дикая природа Борнео на реке Кинабатанган. © Sora

Менее года назад видео, созданное искусственным интеллектом (ИИ), было по большей части шуткой; но посмотрите, что он может сделать сейчас.

Компания OpenAI (создатель ChatGPT) анонсировала свою новую модель ИИ — Sora, которая превращает описательный текст в видео, и это, без преуменьшения можно назвать пугающе огромным шагом вперед.

Sora (Сора) создает «реалистичные и творческие сцены» из текстовых подсказок. Это означает, что вы можете описать сцену с такой степенью детализации, с какой захотите, и ИИ обработает ваш запрос и сгенерирует соответствующее видео с высоким разрешением. В этом смысле Сора похожа на многие предыдущие видеогенераторы, которые мы видели за последний год или около того.

Представляем Sora, нашу модель преобразования текста в видео. Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и следуя указаниям пользователя.

Но чтобы дать вам представление о прогрессе в этой области, взгляните на то, что могли видеогенераторы всего около года назад, в марте 2023 года.

Теперь взгляните на то, что OpenAI делает в середине февраля 2024 года со своей новой системой Sora, и найдите время, чтобы оценить захватывающий темп развития.

Вот несколько примеров с подсказками, которые привели к созданию видеороликов.

Описание: Самоед и золотистый ретривер игриво резвятся ночью по футуристическому неоновому городу. Неоновые огни, излучаемые близлежащими зданиями, блестят на их шерсти.

Описание: Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами, на крутом горном склоне, из-под его шин поднимается пыль, солнечный свет падает на внедорожник, когда он мчится по дороге, отбрасывая теплое сияние. Грунтовая дорога плавно изгибается вдаль, в поле зрения нет других машин. Деревья по обе стороны дороги — секвойи, повсюду разбросаны пятна зелени. Сзади видно, как автомобиль легко вписывается в повороты. Сама грунтовая дорога окружена крутыми холмами и горами, а над головой чистое голубое небо с облаками.

Описание: Стильная женщина идет по токийской улице, залитой теплым неоновым светом и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье и черные ботинки, в руках черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, создает зеркальный эффект разноцветных огней. По ней ходит много пешеходов.

Описание: Несколько гигантских мамонтов приближаются, ступая по заснеженному лугу, их длинный мех слегка развевается на ветру, когда они идут, заснеженные деревья и впечатляющие снежные вершины гор вдалеке, послеполуденный свет с тонкими облаками и солнце высоко вдалеке создают теплое свечение. Камера с низким обзором показывает крупное пушистое млекопитающее.

Описание: археологи обнаруживают в пустыне обычный пластиковый стул, тщательно раскапывая и вытирая его.

Описание: красивое домашнее видео, показывающее жителей Лагоса, Нигерия, в 2056 году. Снято на камеру мобильного телефона.

Сора способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона.

Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире.

Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать убедительные символы, выражающие яркие эмоции. Сора также может создавать несколько кадров в одном видео, в которых точно сохраняются персонажи и визуальный стиль.

У нынешней модели есть слабые места. У нее могут возникнуть проблемы с точным моделированием физики сложной сцены, и она может не понимать конкретные случаи причины и следствия. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса.

Модель также может путать пространственные детали подсказки, например, путать лево и право, и может не давать точного описания событий, происходящих во времени, например, следования определенной траектории камеры.

Сора — это диффузионная модель, которая генерирует видео, начиная с видео, похожего на статический шум, и постепенно преобразует его, удаляя шум на протяжении многих шагов.

Сора опирается на предыдущие исследования моделей DALL·E и GPT. Она использует технику повторения из DALL·E 3, которая включает в себя создание очень информативных подписей к данным визуального обучения. В результате модель может более точно следовать текстовым инструкциям пользователя в сгенерированном видео.

При этом следует понимать, что эти системы искусственного интеллекта еще совсем малыши. Какими бы невероятными они ни были, они оттачивают свои таланты со скоростью, которую мы никогда не видели ни в одной другой области технологий.