共计 2889 个字符,预计需要花费 8 分钟才能阅读完成。
AI 模型的迭代速度已经进入「周更」节奏。短短一周内,Anthropic 和 DeepSeek 分别扔出了两枚重磅炸弹:前者让最强编码模型再次进化,后者则用极具攻击性的定价证明——开源模型与闭源前沿的差距,正在以肉眼可见的速度收窄。
Claude Opus 4.7:终于可以放心把最难的代码任务交给 AI 了
4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。这不是一次常规的参数微调,而是针对「高难度、长周期、需要严格遵循指令」的复杂编码场景进行的定向升级。
先看几个让开发者眼前一亮的硬指标:
- 93-task 编码基准:解决率较 Opus 4.6 提升 13%,其中有 4 道难题是 Opus 4.6 和 Sonnet 4.6 都无法解决的;
- CursorBench:从 58% 直接跃升至 70%,这意味着在真实 IDE 环境中的代码生成与修改能力有了质的飞跃;
- 视觉能力:在视觉敏锐度基准测试中,从 54.5% 暴涨至 98.5%——对于需要截图分析、UI 还原、设计稿转代码的前端开发者来说,这几乎是质变;
- 模型稳定性:Vercel、Cursor、GitHub Copilot 等核心合作伙伴的反馈高度一致——「无退化、更诚实、更擅长验证自身输出」。
但真正值得开发者关注的,是 Anthropic 对 「自主代理能力」 的强化。Opus 4.7 能够在长时间运行的复杂任务中保持严谨和一致性,精确遵循指令,甚至会 主动验证自己的输出 后再返回结果。用 Cursor 联合创始人 Michael Truell 的话说:「它不仅仅是能力更强,而是在自主性和创造性推理上有了实质性跨越。」
更关键的是,定价维持不变:输入 $5/ 百万 tokens,输出 $25/ 百万 tokens。同价位下能力显著提升,相当于变相降价。
对于国内开发者,接入方式非常直接:通过 Claude API(模型 ID claude-opus-4-7)、Amazon Bedrock、Google Cloud Vertex AI 或 Microsoft Foundry 均可调用。Anthropic 还同步推出了 Task Budgets(公开测试版) 和更高分辨率的图像处理能力,前者让你可以更精细地控制模型在复杂问题上的推理深度与延迟之间的权衡。
DeepSeek V4:开源模型的「参数怪兽」与「价格屠夫」
就在 Opus 4.7 发布一周后,4 月 24 日,DeepSeek 甩出了预热已久的 V4 系列——DeepSeek-V4-Pro 和 DeepSeek-V4-Flash,均为预览版,采用标准 MIT 协议开源。
这两个模型的规格堪称「夸张」:
- 统一 100 万 token 上下文,是目前开源模型中罕见的长上下文配置;
- V4-Pro:总参数 1.6T,激活参数 49B,Hugging Face 权重文件高达 865GB;
- V4-Flash:总参数 284B,激活参数 13B,权重文件 160GB。
Pro 版是目前开源权重模型中体积最大的,甚至超过了 Kimi K2.6(1.1T)和 GLM-5.1(754B)。但体积大不代表笨重——得益于 MoE(混合专家)架构的极致优化,在 100 万 token 长上下文场景下,V4-Pro 的单 token 计算量(FLOPs)仅为上一代 V3.2 的 27%,KV 缓存占用只有 10%;而 Flash 版更是分别压到了 10% 和 7%。
真正让业界震惊的是定价:
| 模型 | 输入 ($/M tokens) | 输出 ($/M tokens) |
|---|---|---|
| DeepSeek-V4-Flash | $0.14 | $0.28 |
| GPT-5.4 Nano | $0.20 | $1.25 |
| DeepSeek-V4-Pro | $1.74 | $3.48 |
| Claude Opus 4.7 | $5.00 | $25.00 |
DeepSeek-V4-Flash 比 OpenAI 最小的 GPT-5.4 Nano 还要便宜;而 V4-Pro 作为准前沿级大模型,价格却不到 Claude Opus 4.7 的三分之一。
根据 DeepSeek 自研的评测数据,V4-Pro-Max 在标准推理基准上已超越 GPT-5.2 和 Gemini-3.0-Pro,但与 GPT-5.4 和 Gemini-3.1-Pro 仍有约 3- 6 个月 的差距。Simon Willison 的评语非常精准:「almost on the frontier, a fraction of the price」——几乎摸到前沿,价格只是零头。
对开发者意味着什么?
第一,顶级编码 AI 的「无人值守」时代正在到来。 Claude Opus 4.7 的进化方向非常明确:不是让模型「更聪明一点点」,而是让它能在复杂、多步骤、长周期的任务中保持可靠。对于需要大规模代码重构、跨模块调试、或者将设计稿精确还原为生产代码的团队来说,这意味着人类可以从「盯梢式协作」转向「目标式管理」。
第二,开源模型的「可用性拐点」已经到来。 DeepSeek V4 的 Flash 版只有 160GB,配合 Unsloth 等量化工具,有望在消费级硬件(如 128GB 内存的 MacBook Pro)上本地运行。Pro 版虽然高达 865GB,但 MoE 架构允许只加载必要的激活专家,理论上也能通过磁盘流式加载在本地运行。当「前沿级性能」可以在本地以极低延迟、零订阅费的方式获取时,企业的数据隐私顾虑和成本结构将被彻底改写。
第三,API 调用的成本博弈进入白热化。 DeepSeek 的激进定价正在逼迫闭源厂商重新思考「性能溢价」的合理性。对于预算敏感的初创团队和独立开发者,现在可以用不到 Claude Opus 4.7 三成的成本,获得接近前沿水平的模型能力——这对于 AI 应用的原型验证和规模化部署都是巨大利好。
快速上手指南
体验 Claude Opus 4.7:
# Python 示例
import anthropic
client = anthropic.Anthropic(api_key="your-api-key")
message = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
messages=[{"role": "user", "content": "重构以下 Python 函数,使其支持异步并行处理..."}]
)
print(message.content)
体验 DeepSeek V4(通过 OpenRouter):
# 安装 llm-openrouter 插件
llm install llm-openrouter
llm openrouter refresh
# 调用 V4-Pro
llm -m openrouter/deepseek/deepseek-v4-pro "生成一个 pelican 骑自行车的 SVG"
如果你更关心成本,可以直接使用 DeepSeek 官方 API,输入 $0.14/$1.74、输出 $0.28/$3.48 的定价目前是行业洼地。
写在最后
Opus 4.7 代表了闭源模型在「可靠性」和「自主性」上的新高度;DeepSeek V4 则代表开源模型在「规模」和「性价比」上的疯狂试探。两条路线看似竞争,实则共同推动了一个对开发者极度友好的未来:最强 AI 编码能力正变得既强大又便宜,既云端可及又本地可控。
对于普通开发者而言,现在可能是加入 AI 辅助编程浪潮的最佳时机——工具已经成熟,成本正在坍塄,剩下的只是你想构建什么。