AI早报 | GPT-5.5正式上线:代码科研双杀Claude,蚂蚁100B「大象」模型主打Token效率

7次阅读

共计 1934 个字符,预计需要花费 5 分钟才能阅读完成。

今日重点:GPT-5.5 正式发布,在代码、知识工作、科学研究三大领域全面超越 GPT-5.4 和 Claude Opus 4.7;蚂蚁集团推出 100B「大象」模型,以极致的 Token 效率和响应速度直击生产环境痛点。

GPT-5.5:从“更强更慢”到“更强更快”

OpenAI 正式发布 GPT-5.5,官方定位为“一种面向实际工作和智能体的新型智能”。与以往每次升级都伴随着更大延迟不同,这次在真实生产环境中,GPT-5.5 的逐 token 延迟与 GPT-5.4 相当,但完成同等任务消耗的 token 更少。

开发者最该关注什么?

  • 编码能力越级 :Terminal-Bench 2.0 测试中,GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%。实测表明,上一代模型遇到复杂命令行工作流约 1 / 3 会卡住,现在这一比例被压到了 1 / 4 以下。
  • 自主性飞跃 :高级工程师反馈,GPT-5.5 能够提前发现问题,在无需明确提示的情况下预测测试和审查需求。不再需要“小心翼翼地拆任务,一步步看着它走”,只需扔需求,它自己拆解、执行、检查。
  • Codex 已更新 :截至发稿,用户可以在 Codex 中直接使用 GPT-5.5。它不仅能写程序,还能生成文档、整理表格、做 PPT,并且自己用工具、自己检查输出。OpenAI 称超过 85% 的员工每周都在用 Codex 工作。

科学研究定位:从答案引擎到研究伙伴

在当前最难的数学基准之一 FrontierMath Tier 4 上,GPT-5.5 Pro 达到 39.6%,近乎 Claude Opus 4.7 的 22.9% 的两倍。更重要的是,它在 Ramsey 数组合数学核心问题中发现了新的证明路径,并被形式化验证工具 Lean 确认无误。这是 AI 在纯数学领域做出原创贡献并被形式化验证的里程碑。

作为实用惯例:波兰亚当·密茨凯维奇大学数学助理教授向 Codex 下了一句需求,11 分钟后一个代数几何可视化应用就跑了起来,能画出二次曲面交线并使用 Riemann-Roch 定理转换为 Weierstrass 曲线标准形式。据估算,据以前光搭项目框架就得半天。

硬件协同:与 NVIDIA 双向奔赴

这次 OpenAI 与英伟达的合作程度是前所未有的:GPT-5.5 与 GB200、GB300 NVL72 系统是联合设计的,从训练到部署,模型和硬件从诞生开始就双向奔赴。这也意味着开发者在云端部署时,同等算力成本下的实际返回将显著提升。

蚂蚁「大象」:100B 的“干活圣体”

在 GPT-5.5 刷屏的同时,蚂蚁 Inclusion AI 团队推出了一款只有 100B 参数的模型「大象」(Elephant),256K 上下文窗口,32K 输出。这是一条完全不同的路径:不拼参数规模,专注生产环境中的 Token 效率和响应速度。

开发者实测要点

  • 代码修复精准 :当代码被“投毒”删除关键变量后,「大象」能精准定位问题,用极简方式修复,没有多余废话,直接省去 Token 无效消耗。
  • 会议纪要漠取 :在 对 3000 字满是口语化表述、重复强调、跑题话题的会议记录中,「大象」能准确剔除无用信息,输出完整的 JSON 格式结果(结论摘要、待办清单、邮件草稿),而 Gemini-2.5-Flash-Lite 输出过长,Token 消耗更大。
  • Agent 循环 :读取 CSV 销售报表→计算季度同比→编写分析结论→自检数字准确性,整个过程只需十秒钟思考 + 两秒输出。

性能数据

在开发者公认的 AI BENCHY 测试中,「大象」平均响应时延压到 1 秒左右,同规模其他选手均在 10-30 秒。指令遵循一致性达到 9.6 分(满分 10 分),输出 Token 控制在 2500 左右,每一分钱 API 算力都用在刀刃上。《财经》报道称,全球企业级 AI 应用中约 50% 的 Token 正在被浪费。「大象」的出现恰好击中这一痛点。

使用建议与局限

「大象」不是万能的。对于需要外部工具(市场调研、竞品采集、甘特图生成)的复杂多步任务,它无法独立完成。对于非常新的知识或刚更新的 SDK,可能会产生 API 幻觉。因此最佳实践是: 大模型规划 +「大象」执行 ,对于需要最新知识的场景在 Prompt 中注入最新文档。

开发者启示

今天的两条重点新闻呈现了一个明确趋势:AI 行业正在从“刷分赛”转向“效率赛”。

  • GPT-5.5 证明,更强和更快可以不是二选一,关键在于架构重构与硬件协同。开发者可以期待在同等算力成本下获得更高的实际返回。
  • 「大象」证明,100B 规模的模型完全可以胜任日常生产环境,Token 效率本身就是核心竞争力。对于成本敏感的中小企业和个人开发者,这是极具吸引力的选项。

下一步可以关注:GPT-5.5 在 Codex 中的实际代码补全能力,以及「大象」在 OpenRouters 上的 API 接入方式和定价策略。

报道来源:量子位,2026 年 4 月 24 日

正文完
 0
hermes
版权声明:本站原创文章,由 hermes 于2026-04-24发表,共计1934字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。