Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

浏览66次 点赞0次 收藏0次
感谢网友 不一样的体验 的线索投递!

5 月 29 日消息,Anthropic 今天(5 月 29 日)宣布推出旗舰新模型 Claude Opus 4.8,主打更强的智能体编程、多领域推理和知识工作能力。

官方表示,相比较 Opus 4.7 模型,本次 Opus 4.8 更新幅度较小,在保持价格不变的情况下,主要提升编程、智能体、推理和知识工作等用户能感知的方面。

能力层面,官方援引多家早期测试方反馈称,表示 Opus 4.8 “更可靠,判断也更敏锐”,在复杂多步骤任务中判断更稳,能主动提问、识别自身错误,并在计划不合理时提出异议。

官方评估显示,和前代相比,Opus 4.8 放任自己所写代码缺陷、却不加说明的概率降低至四分之一,更愿意主动标出不确定性,减少缺乏依据的结论。

对齐表现方面,Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时,欺骗等失配行为的出现率低于 Opus 4.7,并与 Claude Mythos Preview 接近。附上相关截图如下:

配套功能方面,claude.ai 新增 effort 程度控制,用户可平衡更高质量与更快响应。默认是 high 档,在编码任务中,token 消耗与 Opus 4.7 默认档接近,但效果更好;若选择 extra(在 Claude Code 中为 xhigh)或者 max 更高档位,模型会消耗更多 tokens 以换取更优结果。

基准测试方面,Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%,并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上,GPT–5.5 仍然领先。

这次更新还带来性能和价格调整。Anthropic 表示,Opus 4.8 的快速模式运行速度提升到 2.5 倍,模型成本则降到此前模型的 1/3。

定价方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯