AI早报 | GPT-5.5正式上线：代码科研双杀Claude，蚂蚁100B「大象」模型主打Token效率

7次阅读

共计 1934 个字符，预计需要花费 5 分钟才能阅读完成。

今日重点：GPT-5.5 正式发布，在代码、知识工作、科学研究三大领域全面超越 GPT-5.4 和 Claude Opus 4.7；蚂蚁集团推出 100B「大象」模型，以极致的 Token 效率和响应速度直击生产环境痛点。

OpenAI 正式发布 GPT-5.5，官方定位为“一种面向实际工作和智能体的新型智能”。与以往每次升级都伴随着更大延迟不同，这次在真实生产环境中，GPT-5.5 的逐 token 延迟与 GPT-5.4 相当，但完成同等任务消耗的 token 更少。

编码能力越级 ：Terminal-Bench 2.0 测试中，GPT-5.5 达到 82.7%，GPT-5.4 为 75.1%，Claude Opus 4.7 为 69.4%。实测表明，上一代模型遇到复杂命令行工作流约 1 / 3 会卡住，现在这一比例被压到了 1 / 4 以下。
自主性飞跃 ：高级工程师反馈，GPT-5.5 能够提前发现问题，在无需明确提示的情况下预测测试和审查需求。不再需要“小心翼翼地拆任务，一步步看着它走”，只需扔需求，它自己拆解、执行、检查。
Codex 已更新 ：截至发稿，用户可以在 Codex 中直接使用 GPT-5.5。它不仅能写程序，还能生成文档、整理表格、做 PPT，并且自己用工具、自己检查输出。OpenAI 称超过 85% 的员工每周都在用 Codex 工作。

在当前最难的数学基准之一 FrontierMath Tier 4 上，GPT-5.5 Pro 达到 39.6%，近乎 Claude Opus 4.7 的 22.9% 的两倍。更重要的是，它在 Ramsey 数组合数学核心问题中发现了新的证明路径，并被形式化验证工具 Lean 确认无误。这是 AI 在纯数学领域做出原创贡献并被形式化验证的里程碑。

作为实用惯例：波兰亚当·密茨凯维奇大学数学助理教授向 Codex 下了一句需求，11 分钟后一个代数几何可视化应用就跑了起来，能画出二次曲面交线并使用 Riemann-Roch 定理转换为 Weierstrass 曲线标准形式。据估算，据以前光搭项目框架就得半天。

这次 OpenAI 与英伟达的合作程度是前所未有的：GPT-5.5 与 GB200、GB300 NVL72 系统是联合设计的，从训练到部署，模型和硬件从诞生开始就双向奔赴。这也意味着开发者在云端部署时，同等算力成本下的实际返回将显著提升。

在 GPT-5.5 刷屏的同时，蚂蚁 Inclusion AI 团队推出了一款只有 100B 参数的模型「大象」（Elephant），256K 上下文窗口，32K 输出。这是一条完全不同的路径：不拼参数规模，专注生产环境中的 Token 效率和响应速度。

代码修复精准 ：当代码被“投毒”删除关键变量后，「大象」能精准定位问题，用极简方式修复，没有多余废话，直接省去 Token 无效消耗。
会议纪要漠取 ：在对 3000 字满是口语化表述、重复强调、跑题话题的会议记录中，「大象」能准确剔除无用信息，输出完整的 JSON 格式结果（结论摘要、待办清单、邮件草稿），而 Gemini-2.5-Flash-Lite 输出过长，Token 消耗更大。
Agent 循环 ：读取 CSV 销售报表→计算季度同比→编写分析结论→自检数字准确性，整个过程只需十秒钟思考 + 两秒输出。

在开发者公认的 AI BENCHY 测试中，「大象」平均响应时延压到 1 秒左右，同规模其他选手均在 10-30 秒。指令遵循一致性达到 9.6 分（满分 10 分），输出 Token 控制在 2500 左右，每一分钱 API 算力都用在刀刃上。《财经》报道称，全球企业级 AI 应用中约 50% 的 Token 正在被浪费。「大象」的出现恰好击中这一痛点。

「大象」不是万能的。对于需要外部工具（市场调研、竞品采集、甘特图生成）的复杂多步任务，它无法独立完成。对于非常新的知识或刚更新的 SDK，可能会产生 API 幻觉。因此最佳实践是： 大模型规划 +「大象」执行 ，对于需要最新知识的场景在 Prompt 中注入最新文档。

今天的两条重点新闻呈现了一个明确趋势：AI 行业正在从“刷分赛”转向“效率赛”。