Китаю удалось резко укрепить свои позиции на рынке ИИ – специалисты компании DeepSeek анонсировали языковую модель, которая по своим ключевым возможностям сопоставима с GPT-o1. Уже реализованы все необходимые каналы доступа, включая веб-интерфейс и мобильные приложения. Также есть готовые инструменты для быстрого разворачивания модели на обычном ПК. При этом платформа доступна пользователям бесплатно, а сама разработка обошлась гораздо дешевле.
Новость наделала немало шуму в СМИ, многие начали предрекать, что Китай в ближайшем будущем станет лидером в сфере нейросетей. Акции многих американских компаний, которые имеют отношение к данной технологии, существенно упали в цене на фоне публикаций.
Что такое DeepSeek
Это большая языковая модель от специалистов одноименной компании, распространяется с открытым исходным кодом. В начале 2025 года компания официально представила DeepSeek-R1, которая сразу начала позиционироваться как «рассуждающая» языковая модель. Ажиотаж во многом обусловлен тем, что новая нейросеть стоит заметно меньше, работая при этом не хуже аналогов. Также к важным преимуществам можно отнести открытый исходный код и свободный доступ для пользователей из РФ.
Компания DeepSeek на начальном пути развития представляла собой неприметный стартап. Работа в сфере машинного обучения была запущена еще в 2019 году, однако до 2025 года СМИ редко интересовались проектом. У конкурентов больше опасений вызывал проект Qwen от Alibaba, именно от него ожидали появления прямого конкурента ChatGPT. Действительно, компания была настроена серьезно, была подготовлена необходимая инфраструктура, привлечены крупные специалисты в данной сфере.
Стоит отметить, что все разработки DeepSeek представляют собой отдельные проекты фонда High-Flyer. Его еще в 2015 году основала группа выпускников Чжэцзянского университета для реализации простых задач. Одно из основных направлений – анализ фондового рынка при помощи алгоритмов машинного обучения. На тот момент это было востребованная сфера, поэтому специалисты планировали занять заметные позиции на рынке. В 2019 году была проведена реорганизация для повышения общей эффективности компании. Отдел по работе с нейросетями, как самый перспективный на тот момент, был выделен в дочернюю компанию High-Flyer AI. В 2023 году ее переименовали в DeepSeek, тогда же впервые появилась новость о начале работы над AGI – собственным ИИ. Деталей публиковалось достаточно мало, поэтому сложно судить, как компания обеспечивала работу.
Далее события начали развиваться еще быстрее. В конце 2024 года была анонсирована DeepSeek-V3, языковая модель позиционировалась как полноценный конкурент Llama 3.1 и GPT-4o, что уже начало подогревать интерес со стороны общественности. Еще через месяц была выпущена нейросеть DeepSeek-R1, которая буквально взорвала блогосферу.
В итоге небольшой компании понадобилось всего полтора года, чтобы перейти от простых ИИ-решений для трейдинга на бирже до конкуренции с такими гигантами, как OpenAI.
Бюджетная нейросеть
На все этапы обучения DeepSeek-V3 потребовалось всего 5,5 миллиона долларов, что несопоставимо с финансированием, которое было выделено на аналогичные проекты. К примеру, на разработку GPT-4 было потрачено свыше 100 миллионов долларов. Также стоит учитывать, что работа велась в условиях санкционного давления со стороны США, что сильно тормозило весь процесс. В частности, не было возможности закупать последние модели видеокарт от AMD и NVIDIA – данные модули используются на этапе обучения. Специалистам пришлось использовать NVIDIA A100 и H100, что продлило этап обучения.
Неожиданный успех сразу отразился на котировках акций многих технологических компаний, включая достаточно крупных. В денежном выражении больше всего потеряла NVIDIA – капитализация за короткий срок упала на 600 миллиардов долларов. Уже можно утверждать, что изменения произошли в масштабах всей индустрии, многие инвесторы также начали переоценивать текущие проекты.
Более того, DeepSeek-R1 более выгодна с позиции разработчиков. Генерация 1 миллиона токенов при помощи GPT-o1 обойдется в 60 долларов, для R1 данный показатель составляет 2,19 доллара. То есть, если компания ранее использовала для своего проекта решение от OpenAI и перейдет на китайский аналог, то ее расходы снизятся в 27 раз. Для крупных приложений это достаточно серьезная сумма и весомый повод принять такое решение. Для рядовых пользователей выгоды еще больше, поскольку для них доступ бесплатен.
Открытый исходный код
Разработчики не используют в названии термин «open», однако все разработки доступны в открытом доступе. При необходимости нейросеть можно загрузить и развернуть на собственном железе, однако обычный ПК для этого просто не подойдет. На текущем этапе развития нейросеть использует порядка 671 миллиарда параметров, для полноценной работы потребуется не менее 720 Гб видеопамяти. Однако если задействовать дата-центр, есть возможность обеспечить работоспособность такой системы. К примеру, это может сделать IT-компания, у которой есть штат нужных специалистов, а также собственная или арендованная инфраструктура.
Особенности политического влияния
В январе 2025 года новый президент США официально подтвердил открытие компании Stargate. В рамках нового проекта на протяжении 10 лет будут выделены рекордные 500 миллиардов долларов. По задумке Трампа новая компания за короткий срок сделает страну лидером в сфере ИИ. Работа будет вестись в разных направлениях, включая разворачивание полноценной инфраструктуры для обучения новых языковых моделей.
Однако масштабный запуск случайно или намеренно был подпорчен – буквально за день до официального заявления DeepSeek запускает R1. Аналитики начали открыто говорить о том, что США попросту не оценили силы перед входом в новую гонку.
Стоит отметить, что специалисты OpenAI ранее говорили о возможности такого сценария. В одном из отчетов отмечалось, что при несоблюдении ограничения экспортного контроля Китай за короткий срок сможет создать и обучить нейросети, которые по своим возможностям обойдут существующие аналоги. В дальнейшем оказалось, что именно такой сценарий и произошел, несмотря на закрытость исходников OpenAI и ряд ограничений в масштабах страны.
Расследование
Практически через неделю после официального релиза специалисты ряда крупных корпораций, включая OpenAI и Microsoft инициировали собственное расследование. Цель был очевидна – им нужно было выяснить, какие данные использовались на этапе обучения нейросети. В качестве одной из версии рассматривался вариант, что китайские специалисты дистиллировали инференс ChatGPT, после чего полученные данные позволили скопировать механизм рассуждения для использования в своем проекте.
В качестве подтверждения данного предположения приводятся некоторые особенности в ответах новой языковой модели. К примеру, на русском языке нейросеть может неожиданно позиционировать себя как YandexGPT. Вполне возможно, что для генерации массива данных для русской локализации использовалась текущая модель от «Яндекса», при этом полученный датасет был недостаточно хорошо очищен перед дальнейшим использованием.
На что способна DeepSeek-R1
Принцип работы и возможности аналогичны другим языковым моделям. Пользователь может задавать вопросы, генерировать тексты с указанным набором параметров, работать с программным кодом и так далее. Поддерживается большое количество языков, включая китайский, русский и английский.
Главное преимущество перед другими языковыми моделями – умение рассуждать (как GPT-o1). После получения запроса нейросеть определенное время «размышляет», выделяя на данном этапе основные тезисы вопроса и составляя план ответа.
Кроме классических возможностей по работе с текстом есть и другие полезные функции:
— поиск. Предусмотрен полноценный модуль поиска информации в сети, что является важным преимуществом. Нейросеть не ограничивается данными, которые использовались для обучения. Они со временем устаревают и для многих запросов просто не подходят. К примеру, можно затрагивать новостные события, которые происходят в данный момент;
— работа с файлами. Модель корректно распознает текст на изображениях и может выделять содержимое документов в разных форматах. К примеру, в качестве входных данных можно загрузить PDF с прайсом и попросить проанализировать информацию.
Как пользоваться
Разработчики периодически приостанавливают регистрацию, поскольку идет большое количество запросов со стороны пользователей. В этом случае необходимо просто повторить попытку позднее.
Веб-версия
Официальный сайт – самый простой способ опробовать возможности новой платформы. Для этого необходимо перейти на официальную страницу https://chat.deepseek.com/sign_in и выбрать удобный вариант входа. Можно создать новую учетную запись на основе электронной почты или выбрать режим быстрого входа через учетную запись Google. Регистрация по номеру телефона пока доступна только жителям Китая. Для запросов предусмотрено отдельное поле в нижней части страницы, в левой части отображается история чатов.
Мобильное приложение
Для доступа к нейросети можно использовать официальные мобильные клиенты для iOS и Android, загрузить их можно через соответствующие магазины. Процесс установки стандартен, дополнительная настройка не требуется. После открытия также необходимо авторизоваться через учетную запись Apple или Google, также есть возможность создать новый аккаунт через электронную почту.
Интерфейс достаточно простой, разобраться в нем не составит сложности. Во многом принцип работы с программой напоминает утилиту от ChatGPT. Для активации модели R1 необходимо нажать кнопку «Глубокое мышление».
Локальный запуск
Предусмотрена возможность развертывания системы на локальной машине, например, используя для этого возможности Ollama. По очевидным причинам оригинальную модель запустить не получится, для этого используются дистиллированные модели, специально адаптированные для обычных ПК. Но даже урезанный функционал требует высокой производительности – необходима мощная видеокарта или достаточный объем ОЗУ.
Краткая инструкция по запуску DeepSeek при помощи Ollama:
— загрузить приложение Ollama с официального сайта https://ollama.com/download. Процесс установки стандартен;
— после запуска необходимо открыть страницу DeepSeek;
— отобразится список доступных моделей, рядом отображается команда, которую необходимо скопировать и запустить в командной строке. К примеру, на момент публикации самая простая модель была DeepSeek-R1-Distill-Qwen-1.5B (1,5 миллиарда параметров). Для полноценного запуска достаточно более гигабайта места на диске, при этом есть возможность в полной мере ознакомиться с возможностями языковой модели.
— дальнейшая работа также осуществляется через терминал. Достаточно отправить нужный запрос и дождаться получение ответа.
Ранее также стало известно, что специалисты компании работают над другими нейросетями:
DeepSeek-Math. Нейросеть для обработки и решения математических задач. Достаточно востребованное сегодня направление с высоким потенциалом. Позволяет задействовать возможности ИИ во многих новых сферах, где требуется производить большое количество расчетов;
DeepSeekCoder-V2. Специализированная модель для работы с программным кодом, по возможностям сопоставима с GPT4-Turbo. Также направление с высоким потенциалом, существующие разработки пока не способны обеспечить достаточное качество кода;
Janus-Pro. Генерация и распознавание изображений. Результаты популярного теста GenEval показывают, что по ключевым параметрам она заметно опережает Stable Diffusion 3 Medium и OpenAI.