昨日,Claude Sonnet 4.5 重磅出炉,被称为世界上最好的编码模型。
它可以构建复杂的 Agent,在推理和数学方面也比 Sonnet 4 进步不少。
Claude Sonnet 4.5 在衡量软件编码能力的 SWE-bench Verified 评估中名列前茅。据观察,它在执行复杂的多步骤任务时能够保持专注超过 30 个小时。
在一项评估 AI 模型在真实计算机任务中表现的基准测试中,Sonnet 4.5 以 61.4% 的成绩领先。Sonnet 4 的成绩是 42.2%。
在推理和数学评估方面,Sonnet 4.5 也以100% 的准确率击败 GPT-5、Gemini-2.5 等模型。
在金融、法律、医学和 STEM 领域,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力,以 72% 的成绩击败 Opus-4.1。
Cursor、GitHub 的使用者纷纷给出好评:
Sonnet 4.5 还拥有很多新的 Claude Code 编码 Agent 所拥有的功能,包括访问虚拟机和内存,以及更好的上下文管理和多 Agent 支持。
Anthropic 表示 Sonnet 4.5 是其发布的第一个能够重建 Claude.ai 网络应用程序的模型,该过程耗时约五个半小时,涉及超过 3,000 种工具的使用。
定价与 Sonnet 4 相同,以相同的价格享受更优质的代码体验。
目前,Anthropic 的编码 Agent 也在使用这个新模型。Claude Code 已创造超过 5 亿美元的运营收入,过去三个月的使用量增长 10 倍以上,并且即将获得原生的 Visual Studio Code 扩展。开发人员能够通过内联差异实时查看 Claude Code 所做的更改。
终端中的 Claude Code 也得到了一些更新,包括改进的状态可见性和可搜索的提示符历史记录。
当 Claude Code 出现异常时,无需手动将代码推送到代码库或进行本地备份,只需撤销即可。
针对构建 Agent 的开发者,Anthropic 推出了 Claude Agent SDK。新的 SDK 使用与 Claude Code 相同的基础架构,但允许开发者构建任何所需的代理。该 SDK 将包含代理编排、内存和上下文管理、工具使用、权限管理等功能。
API 方面,Anthropic 还添加了一项自动上下文管理功能,允许 Claude 编辑上下文窗口并根据需要删除过时的数据。
团队还对 Sonnet 4.5 进行了安全培训,改善了模型的行为,减少谄媚、欺骗、权力追求等令人担忧的行为。
近几个月来,许多人工智能专家都在讨论用人工智能来构建所需的软件。Sonnet 4.5 展示了构建 Agent 的可能性,也提供了一个未来可能的发展方向。
参考资料:https://www.anthropic.com/news/claude-sonnet-4-5
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论