Agent时代来临：DeepSeek V4开源百万上下文、国产AI生图硬刚GPT-Image-2，推理成本还能再降100倍？

5次阅读

共计 2624 个字符，预计需要花费 7 分钟才能阅读完成。

本周 AI 圈的关键词是：Agent 落地、成本重构、国产突破。

从 DeepSeek V4 用 484 天交出的开源答卷，到国产视觉模型 UniWorld-V2.5 在中文生图领域正面硬刚 GPT-Image-2；从 Anthropic 被迫承认 Claude” 降智 ” 的信任危机，到国内首家百亿估值纯推理 GPU 公司曦望喊出 ” 百万 Token 一分钱 ” 的野望——AI 产业正在从 ” 炫技期 ” 加速进入 ” 应用期 ”。

对开发者和企业用户来说，这意味着什么？哪些能力已经可以马上用起来？本文帮你划重点。

2026 年 4 月，DeepSeek V4 的技术报告正式发布。相比前代，V4 被称为 ” 动刀最多的一版 ”，核心升级集中在三个地方：

V4-Pro（1.6 万亿参数）和 V4-Flash（2840 亿参数）均支持1M 上下文窗口。在百万 Token 场景下，V4-Pro 的单 token FLOPs 只有 V3.2 的27%，KV Cache 仅占10%。

这是什么概念？

以前处理一本 300 页的技术文档，要么模型 ” 失忆 ”，要么显存爆炸。现在开源模型原生支持百万级上下文，且推理效率大幅提升。对开发者来说，这意味着 长文档分析、代码库理解、多轮复杂对话 等场景，可以直接用开源方案替代昂贵的闭源 API。

DeepSeek 在 V4 中引入了mHC（流形约束超连接），将传统残差连接的混合矩阵约束在 ” 双随机矩阵 ” 的流形上。简单说，就是让深层大模型的训练更稳定、信号传播更可控。

这虽然不是那种 ” 眼前一亮 ” 的架构创新，但随着模型规模继续膨胀，这种 ” 稳得住 ” 的工程补丁会变成刚需。V4 通过 fused kernel 和选择性重计算，将 mHC 的 wall-time 开销控制在6.7%——用极低的代价换取了训练稳定性。

V4 已经支持华为昇腾算力，预计下半年昇腾 950 超节点批量上市。在 HBM 短缺和算力自主化的背景下，这一点对国内企业的意义不言而喻。

对开发者的建议：如果你在做 RAG、长文档处理或代码助手，V4-Flash 的性价比值得重点关注。百万上下文 + 开源权重，意味着你可以本地部署一个 ” 能读整本书 ” 的 AI 助手。

OpenAI 的 GPT-Image- 2 刚刷屏不久，国产模型就追上来了。

兔展智能发布的UniWorld-V2.5，在 InfoGraph（信息图）、中文密集文字、复杂 GUI 布局等 ”AI 生图无人区 ”，直接对齐甚至超越了 GPT-Image- 2 的水平。

之前的文生图模型，遇到中文排版 + 数学公式 + 复杂图表的场景基本 ” 翻车 ”。UniWorld-V2.5 交出的成绩包括：

高考数学卷生成：选择题、填空题、解答题、函数图像、几何证明，格式规范到 ” 可以直接拿去考试 ”
社交媒体界面生成：抖音直播、小红书探店、微博热搜、YouTube 页面，UI 细节精准到 ” 以假乱真 ”
信息图生成：人体解剖、太阳系全貌、绿叶结构，中英文混排清晰，数据图表严谨

更重要的是，它不需要像以往那样写极其复杂的 prompt，一句话就能生成复杂的视觉信息图。

对设计师和开发者的意义：如果你在做营销物料、教育内容、产品原型或数据可视化，现在的 AI 生图能力已经可以从 ” 玩具 ” 升级为 ” 生产力工具 ”。特别是在中文场景下，国产模型的可用性已经反超海外竞品。

大模型能力再强，用不起也是白搭。本周两个信号表明，推理成本的下降速度可能比预期更快。

杭州曦望公司分拆独立仅一年多，已完成七轮融资累计 40 亿元，最新一轮单笔融资 10 亿元，估值破百亿。他们的核心逻辑很简单：Agent 时代，推理算力需求是训练算力的 4 - 5 倍，谁的推理成本更低谁就是赢家。

曦望新一代推理芯片 启望 S3的目标极具野心：把百万 Token 成本压到 一分钱。通过专为推理深度定制的架构，GEMM 和 Flash Attention 利用率分别达到约 99% 和 98%，同时原生支持 FP16 到 FP4 的全链路低精度运算。

华为发布 ADS 5，采用 WEWA 2.0 架构，云端多智能体博弈 + 在线强化学习，效率提升 10 倍；车端世界行为模型将视觉、触觉、听觉统一转化为 token 输出防御性策略。华为预计今年在智驾领域投入超180 亿元。

核心洞察 ：当 Agent 从 ” 聊天机器人 ” 进化为 ” 能自主分析、执行复杂任务的智能体 ”，Token 消耗会达到过去的几十倍甚至上百倍。推理成本的下降，不是 ” 锦上添花 ”，而是决定 Agent 能否普及的 生死线。

在本周的 AI 新闻里，Anthropic 的 ” 翻车 ” 值得所有 AI 产品团队警醒。

社区发现 Claude” 越聊越傻 ” 一个多月后，Anthropic 终于发布 postmortem，承认三个 bug：

1. 推理等级被偷偷调低 ：Claude Code 的默认推理从 ”high” 调成 ”medium”，界面上仍显示 ”high”
2. 缓存 bug 导致 ” 健忘 ”：本应 1 小时后清除的思考记录，因代码 bug 每轮对话都被清空
3. 提示词限制输出质量：系统提示中加入 ” 工具调用之间不超过 25 词 ” 的限制，导致 Opus 性能下降 3%

网友造了一个新词：AI shrinkflation（AI 缩水通胀）——同样的价格，买到的是稀释过的产品。

警示：当 AI 成为生产力工具，” 降智 ” 不只是用户体验问题，而是商业信誉问题。Anthropic 在 GPT-5.5 发布前后 ” 被迫认错 ”，恰恰说明 竞争压力是倒逼产品质量的最有效手段。

方向	建议
——	——
长文本处理	关注 DeepSeek V4 的开源权重，测试百万上下文在你的业务场景下的实际效果
视觉生成	尝试 UniWorld-V2.5 处理中文密集排版、信息图、GUI 原型等任务
成本控制	如果你是 Agent 开发者，开始用 ” 每百万 Token 成本 ” 重新评估技术选型
产品信任	如果你是 AI 产品经理，建立模型质量监控体系，避免 ” 降智 ” 透支用户信任