DeepSeek V4: Обзор Pro и Flash
DeepSeek V4: открытая модель с контекстом 1М токенов, ценой в 20 раз дешевле GPT и режимом Pro Max. Бесплатный доступ без VPN, поддержка Huawei Ascend.
Китайский стартап DeepSeek, уже успевший потрясти мировую индустрию искусственного интеллекта своими предыдущими релизами, сделал то, к чему, казалось, все шли последние два года. Без громких презентаций и пафосных стримов компания просто опубликовала на платформе Hugging Face веса своих новых моделей и открыла к ним бесплатный доступ.
Речь идет о четвертом поколении языковых моделей — DeepSeek V4, представленном в двух версиях: флагманской DeepSeek-V4-Pro и облегченной DeepSeek-V4-Flash. Этот релиз не просто очередное обновление, а прямая и крайне агрессивная заявка на лидерство, способная перевернуть представление об экономике больших языковых моделей.
DeepSeek V4 — это не просто модель, а целое семейство, заточенное под максимальную эффективность и длинный контекст, доступное каждому.
Обе модели, и Pro, и Flash, построены по архитектуре Mixture-of-Experts (MoE) — смеси экспертов. Это означает, что гигантский массив параметров не задействуется целиком при каждом запросе, а активируется лишь небольшая, специализированная часть. Такой подход позволяет достичь колоссальной мощи, не расходуя при этом все вычислительные ресурсы.
DeepSeek-V4-Pro обладает 1,6 триллионами общих параметров, из которых одновременно активируется лишь 49 миллиардов. Ее младшая сестра, V4-Flash, при 284 миллиардах общих параметров использует только 13 миллиардов активных. Это делает Flash-версию невероятно быстрой и экономичной, подходящей для подавляющего большинства повседневных задач.
Благодаря архитектуре MoE, DeepSeek V4 достигает невиданной ранее производительности при сравнительно низких вычислительных затратах.
Настоящей революцией, заложенной в основу V4, стал полностью переработанный механизм внимания — ключевой компонент, позволяющий модели связывать слова в предложении и понимать контекст. Разработчики создали гибридную архитектуру внимания, комбинирующую Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA).
Эта инженерная находка позволила радикально снизить требования к памяти, в особенности к так называемому KV-кэшу, где модель хранит «историю» диалога или документа. По заявлениям DeepSeek, для обработки контекста в 1 миллион токенов модели V4 требуется на 90% меньше памяти под KV-кэш по сравнению с предшественницей V3.2.
Новая архитектура внимания превратила контекст в 1 миллион токенов из дорогой фичи в стандартную и легкодоступную функцию.
Эта оптимизация напрямую связана с одной из главных особенностей DeepSeek V4 — контекстным окном в миллион токенов. Для сравнения, средняя книга содержит около 100–150 тысяч токенов. Это означает, что за один раз в модель можно загрузить целый роман, многотомную техническую документацию или логи огромного программного проекта, и она сможет анализировать их целиком, не теряя нити повествования. Такой объем памяти открывает безграничные возможности для работы с длинными документами и сложных исследовательских задач.
Контекст в один миллион токенов перестает быть маркетинговым трюком и становится базовым стандартом для решения реальных задач.
Не менее значимые изменения скрыты внутри обучающих алгоритмов. DeepSeek применила новый оптимизатор Muon, который призван обеспечить более быструю сходимость и стабильность обучения. Кроме того, компания продолжает уходить в сторону пониженной точности вычислений для экономии ресурсов.
В DeepSeek V4 используется смесь форматов FP8 и FP4, причем FP4-квантование применяется для весов экспертных блоков. Это позволяет вдвое уменьшить объем памяти для хранения весов по сравнению с FP8, что критически важно для запуска таких гигантов на доступном оборудовании.
Использование оптимизатора Muon и квантования FP4 — тихая инженерная революция, делающая гигантские модели экономически жизнеспособными.
Практическим результатом всех этих архитектурных и алгоритмических ухищрений стала невероятная производительность. DeepSeek V4-Pro показывает результаты, сопоставимые с лучшими закрытыми моделями мира, такими как GPT-5.4 от OpenAI и Claude Opus 4.6 от Anthropic, а в некоторых дисциплинах даже превосходит их.
Наибольший рывок сделан в области агентного программирования, где ИИ не просто генерирует код, а автономно пишет, запускает, тестирует и исправляет его. В бенчмарках по программированию, математике и STEM-дисциплинам V4-Pro уверенно обходит все существующие открытые модели, уступая в общих знаниях о мире лишь Google Gemini 3.1 Pro.
DeepSeek V4-Pro претендует на звание лучшей открытой модели в мире, особенно в области программирования и агентских задач.
Сравнение с флагманскими моделями конкурентов выглядит более чем убедительно. Ниже приведены данные из тестов самой DeepSeek, сравнивающие режим максимального мышления V4-Pro-Max с передовыми западными аналогами:
- MMLU-Pro (знания): Gemini-3.1-Pro High (91.0) > Opus-4.6 Max (89.1) > DS-V4-Pro Max (87.5) > GPT-5.4 xHigh (87.5).
- GPQA Diamond (сложные научные вопросы): Gemini-3.1-Pro High (94.3) > GPT-5.4 xHigh (93.0) > Opus-4.6 Max (91.3) > DS-V4-Pro Max (90.1).
- LiveCodeBench (программирование): DS-V4-Pro Max (93.5) > Gemini-3.1-Pro High (91.7) > Opus-4.6 Max (88.8).
- Codeforces (соревновательное программирование, рейтинг): DS-V4-Pro Max (3206) > GPT-5.4 xHigh (3168) > Gemini-3.1-Pro High (3052).
- SWE Verified (решение реальных задач на GitHub): Opus-4.6 Max (80.8) > Gemini-3.1-Pro High (80.6) = DS-V4-Pro Max (80.6).
- Apex (экстремально сложные задачи): Gemini-3.1-Pro High (60.9) > GPT-5.4 xHigh (54.1) > DS-V4-Pro Max (38.3).
Модели поддерживают три режима работы, позволяя выбирать между скоростью и глубиной анализа. Non-think — режим быстрых, интуитивных ответов для простых задач. Think High включает осознанный логический анализ для сложных проблем. Think Max заставляет модель рассуждать на пределе возможностей, что подходит для исследования границ ее способностей. Для Think Max DeepSeek рекомендует выделять контекстное окно не менее 384 тысяч токенов.
Три режима мышления — от мгновенного ответа до полной мобилизации всех ресурсов — делают V4 универсальным инструментом.
Но самым болезненным ударом по конкурентам, в частности по OpenAI и Anthropic, становится цена. DeepSeek V4 в 20–50 раз дешевле аналогов. Для сравнения: OpenAI берет $5 за миллион входных токенов и $30 за миллион выходных для GPT-5.5. В то же время тарифы DeepSeek V4 таковы: Pro-версия стоит $1,74 за вход и $3,48 за выход, а Flash-версия — всего $0,028 и $0,28 соответственно. При этом для обычных пользователей чат-бот DeepSeek со всеми новыми моделями доступен бесплатно и без VPN, что делает его невероятно привлекательной альтернативой платным подпискам.
Бесплатный доступ и цены на API в десятки раз ниже, чем у конкурентов, ставят под вопрос всю бизнес-модель западных ИИ-компаний.
Важнейшим геополитическим и технологическим аспектом релиза стала поддержка оборудования Huawei Ascend. В то время как США ужесточают санкции на поставки передовых чипов Nvidia, DeepSeek подтвердила, что протестировала запуск V4 на ускорителях Huawei. Несмотря на трудности, связанные с надежностью и программной средой китайского железа, сам факт такой поддержки — огромный шаг к технологической независимости Китая. Планы по использованию инференс-инфраструктуры Huawei Atlas 950 SuperPoD обещают сделать работу модели еще дешевле в ближайшем будущем.
Поддержка чипов Huawei Ascend — это не просто техническая деталь, а стратегический маневр по снижению зависимости от Nvidia.
DeepSeek V4 — это не просто новая модель, а кульминация двухлетнего тренда на эффективность и доступность. Китайский стартап снова сделал то, что у него получается лучше всего: предложил технологию переднего края, не требующую передового железа, и сделал ее практически бесплатной. Релиз V4 не только демократизирует доступ к мощнейшему ИИ, но и ставит перед западными гигантами неудобный вопрос: за что именно платят их пользователи? Ответ на этот вопрос, скорее всего, определит развитие всей индустрии на ближайшие годы.
Опубликовано:

