DeepSeek-V4 正式发布:百万上下文+双版本,开源再次比肩世界顶级闭源模型

5次阅读

共计 1447 个字符,预计需要花费 4 分钟才能阅读完成。

重磅发布

2026 年 4 月 24 日,中国 AI 创业公司深度求索(DeepSeek)正式上线并开源 DeepSeek-V4 预览版。这款被业界等待数月的旗舰模型,以百万级超长上下文、顶级推理性能与极致性价比再次刷新了开源大模型的竞争天花板,也让世界再次见识到中国 AI 团队在基础设施层的深层思考与务实野心。


双版本同步上线,覆盖不同场景

此次 DeepSeek-V4 推出了两个 MoE 架构版本,均支持 100 万 tokens 超长上下文(最大输出长度 384K):

  • DeepSeek-V4-Pro:总参数 1.6 万亿,激活参数 49B,面向尖端研发任务,性能直追顶级闭源模型。
  • DeepSeek-V4-Flash:总参数 2840 亿,激活参数 13B,定位经济高效部署,提供更快捷的 API 服务。

两款模型均支持「非思考模式」与「思考模式」,其中思考模式支持 reasoning_effort 参数(high/max),建议复杂 Agent 场景设置为 max 强度。

核心技术创新

DeepSeek-V4 在架构层面引入了多项重大创新:

  1. 混合注意力架构:结合压缩稀疏注意力(CSA)与高度压缩注意力(HCA),显著降低长上下文处理的计算复杂度。
  2. 流形约束超连接(mHC):增强传统残差连接,提升信号在层之间的传播稳定性。
  3. Muon 优化器:专为加速收敛和提高训练稳定性设计,显著提升训练效果。
  4. 超长上下文效率:与前代 DeepSeek-V3.2 相比,Pro 版推理 FLOPs 降低 73%,KV 缓存减少 90%,真正做到了百万级上下文的实用化。

性能评测:开源领冒

官方数据显示,DeepSeek-V4 在多个维度实现了国内与开源领域的领先:

  • Agentic Coding:DS-V4-Pro 达到当前开源模型最佳水平,已成为公司内部员工使用的 Agentic Coding 模型,体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
  • 世界知识:DS-V4-Pro 大幅领先其他开源模型,仅略逊于顶级闭源模型 Gemini-Pro-3.1。
  • 推理任务:在数学、STEM 与竞赛型代码等任务中,DS-V4-Pro 超越所有已公开评测的开源模型,成绩北肩世界顶级闭源模型。

API 定价与开源生态

DeepSeek 继续延续高性价比策略,以每百万 tokens 计:

版本 输入(缓存命中) 输入(缓存未命中) 输出
V4-Flash 0.2 元 1 元 2 元
V4-Pro 1 元 12 元 24 元

官网聊天与 App 端仍保持 免费。目前 Pro 服务吞吐有限,官方预计下半年华为昇腾 950 超节点批量上市后,Pro 价格会大幅下调。

模型已在 Hugging Face 开源,技术报告同步公开:DeepSeek V4 技术报告

国产芯片生态适配

此次发布还释放了一个重要信号:DeepSeek V4 采用华为自研芯片 训练,并完成了国产算力的深度适配:

  • 华为云:首发适配 DeepSeek-V4,升腾 CANN 平台首发直播。
  • 寒武纪:基于 vLLM 推理框架完成对 V4-Flash(285B)与 V4-Pro(1.6T)的 Day 0 适配,适配代码已开源至 GitHub 社区。
  • 昇腾超节点:预计下半年批量上市,将进一步推动 Pro 版的成本下降与普及。

结语

DeepSeek 官方在发布推文最后引用了《荀子·非十二子》中的一句话:“不诱于誉,不恐于读,率道而行,端然正己”。这种不被声誉所诱、不因读谤而惧的态度,恰好是 DeepSeek 团队一路走来的写照——用极致的技术追求与开源精神,持续刷新大模型的能力边界。

本文综合自深度求索官方公众号、腾讯新闻、机器之心、观察者网等报道,截至 2026 年 4 月 24 日。

正文完
 0
hermes
版权声明:本站原创文章,由 hermes 于2026-04-24发表,共计1447字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。