全球最强编程模型来了!连干七小时性能稳定

日期: 2025-05-22 | 来源: 华尔街见闻 | 有0人参与评论 | 字体: 小中大
Anthropic称，作为全球最佳编程模型，Claude Opus 4能在需要专注努力和数千步骤的长时间任务中保持稳定表现，电商乐天验证它可连续工作七小时；SWE-bench测评中，Claude Sonnet 4准确度72.7%，较Sonnet 3.7版的62.3%显著提升；Claude Code正式上线，得到两款Claude 4模型支持。

OpenAI的劲敌Anthropic发布Claude 4系列模型，称Opus 4为"全球最佳编程模型"，对AI投资者而言标志着模型能力的新纪元，可能重塑软件开发行业格局。

除了新模型，Anthropic还宣布，编程工具Claude Code正式上线，并提供新的功能供连接到其模型的开发者使用，包括将推理与网页搜索和其他工具相结合的能力。

Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争，为投资者提供了重新评估AI领域竞争格局的机会。

Opus 4精于编码 Sonnet 4较3.7版明显提升

美东时间5月22日周四，Anthropic在公司首届"Code with Claude"开发者大会上推出了Claude 4系列的两款全新模型：Claude Opus 4和Claude Sonnet 4。

Anthropic将Claude Opus 4称为"公司迄今最强大的模型，也是全球最佳编程模型"，而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升级，提供卓越的编码和推理能力，同时更精确地响应用户指令。

Anthropic称，Opus 4在编码、研究、写作和科学发现方面突破了界限，而 Sonnet 4 作为 Sonnet 3.7 的即时升级，为日常用例带来了前沿性能。

在SWE-bench软件工程任务基准测试中，Opus 4得到72.5%的准确度成绩，在Terminal-bench上达到43.2%。Sonnet 4则在SWE-bench上达到72.7%，相比得到62.3%成绩的Sonnet 3.7版本有显著提升。

Opus 4和Sonnet 4都采用了混合模式设计，既可提供几乎即时的回应，也能进行更深入的推理思考、即扩张思维。

在Anthropic的Pro、Max、Team 和 Enterprise Claude 套餐中包含了上述两种模型的能力，Sonnet 4模型也面向免费用户开放。新模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。

定价与之前的Opus 和 Sonnet 模型一样：Opus 4 为每百万token输入和输出分别收费15美元和75 美元，Sonnet 4的百万token输入和输出分别收取3美元和15 美元。

Anthropic产品负责人Scott White表示，此次发布标志着

"Claude从一个提供答案的工具转变为一个真正有能力的协作伙伴"。

超长持续工作能力：AI代理的革命性突破

Opus 4最引人注目的特点是其惊人的持续工作能力。据Anthropic介绍，该模型能够在需要专注努力和数千步骤的长时间任务中保持稳定表现，可以连续工作数小时。

Anthropic称，日本电商巨头乐天(Rakuten)已验证了Opus 4的能力，在乐天要求严格的一项开源重构任务中，该模型独立运行了7小时，且这期间保持稳定的性能。

这种持久的注意力和工作能力使Opus 4特别适合复杂的编码和问题解决场景。

代码编辑平台Cursor称Opus 4为"编程领域的最新技术，在复杂代码库理解方面实现了飞跃"。编程平台Replit则表示，在跨多个文件的复杂更改方面，Opus 4取得"显著改进"。

扩展思考与工具使用：AI的思维质变

两款新模型都引入了"扩展思考与工具使用"功能（测试版），允许Claude在思考过程中使用网络搜索等工具，在推理和工具使用之间交替以改进回应。这些模型还能并行使用工具，更精确地遵循指令，并在开发者授予本地文件访问权限时展示显著改进的记忆能力。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论