Искусственный интеллект DeepSeek стал самым рейтинговым приложением в App Store

Искусственный интеллект DeepSeek произвел большой фурор, став самым рейтинговым приложением в Apple Store и отправив акции технологических компаний вниз.
Китайский стартап DeepSeek удивил технологическую индустрию новой языковой моделью, которая соперничает по возможностям с последней моделью OpenAI — с гораздо меньшими инвестициями и использованием чипов с уменьшенной емкостью. США запрещают экспорт современных компьютерных чипов в Китай и ограничивают продажи оборудования для производства чипов.
DeepSeek, базирующаяся в городе Ханчжоу, как сообщается, имела запас высокопроизводительных чипов Nvidia A100 со времен, предшествовавших запрету, поэтому ее инженеры могли использовать их для разработки модели. Но в ключевом прорыве стартап заявляет, что вместо этого использовал гораздо менее мощные чипы Nvidia H800 для обучения новой модели, получившей название DeepSeek-R1.
«До сих пор мы видели, что успех крупных технологических компаний, работающих в сфере ИИ, измерялся тем, сколько денег они собрали, а не тем, какие именно технологии использовались», — говорит Эшлеша Несарикар, генеральный директор компании Plano Intelligence, Inc., занимающейся ИИ. «Я думаю, мы будем уделять гораздо больше внимания тому, какие технологии лежат в основе различных продуктов этих компаний».
По данным VentureBeat, на общих тестах ИИ по математике и кодированию DeepSeek-R1 сравнялся с результатами модели Open AI o1. Американские компании не раскрывают стоимость обучения собственных больших языковых моделей (LLM), систем, которые лежат в основе популярных чат-ботов, таких как ChatGPT.
Но генеральный директор OpenAI Сэм Альтман сообщил аудитории в MIT в 2023 году, что обучение ChatGPT-4 обошлось более чем в 100 миллионов долларов. DeepSeek-R1 доступен для загрузки пользователям бесплатно, в то время как сопоставимая версия ChatGPT стоит 200 долларов в месяц.
По словам специалистов, цифра DeepSeek в 6 миллионов долларов не обязательно отражает стоимость создания LLM с нуля; эта стоимость может представлять собой тонкую настройку последней версии. Тем не менее, улучшенная энергоэффективность модели сделает ИИ более доступным для большего числа людей в большем количестве отраслей.
Поскольку DeepSeek-R1 требует меньше вычислительной мощности, стоимость его работы составляет одну десятую от стоимости аналогичных конкурентов.
DeepSeek достиг своей эффективности несколькими способами. Модель имеет 670 миллиардов параметров или переменных, которые она изучает во время обучения, что делает ее крупнейшей на сегодняшний день моделью с открытым исходным кодом. Но модель использует архитектуру, называемую «смесь экспертов», так что только соответствующая часть этих параметров — десятки миллиардов вместо сотен миллиардов — активируется для любого заданного запроса. Это сокращает вычислительные затраты. В DeepSeek LLM также используется метод, называемый многоголовым скрытым вниманием; вместо того чтобы говорить ответ слово за словом, он генерирует сразу несколько слов.
Модель еще больше отличается от других, таких как o1, тем, как она усиливает обучение. В то время как у многих LLM есть внешняя модель «критика», которая работает вместе с ними, исправляя ошибки и подталкивая LLM к проверенным ответам, DeepSeek-R1 использует набор правил, внутренних для модели, чтобы научить ее, какой из возможных ответов, которые она генерирует, является лучшим.
Еще одним важным аспектом DeepSeek-R1 является то, что компания сделала исходный код продукта открытым. Это означает, что заявления компании могут быть проверены. Если модель будет такой же вычислительно эффективной, как заявляет DeepSeek, это, вероятно, откроет новые возможности для исследователей, которые используют ИИ в своей работе. Это также позволит больше исследовать внутреннюю работу самих LLM.