地表最强编程 AI：Claude 4 系列登场，自动写代码 7 小时刷新世界纪录

作者：灵犀软件园时间：2025-05-23 16:50:35

本站 5 月 23 日消息，Anthropic 公司在北京时间今天（5 月 23 日） 0 点 30 分举办的活动中，推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型，在结构化推理、软件工程和自主代理行为等领域实现重大进步。

Claude Opus 4：复杂推理与软件开发的巅峰之作

本站援引博文介绍，Claude Opus 4 被定位为 Anthropic 迄今最强大的模型，专为处理复杂的推理流程和软件开发场景设计。

测试数据显示，该模型在 SWE-bench 基准测试（评估模型解决真实 GitHub 问题的能力）中准确率达到 72.5%；在 TerminalBench 测试（在多步骤终端代码生成任务中验证模型表现）中准确率为 43.2%。

更令人瞩目的是，Opus 4 在软件环境中展现出强大的自主行为，得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制，据 Rakuten 测试数据，可连续进行近 7 小时的代码生成和任务执行，刷新AI世界纪录，远超前代 Claude 3 Opus（不到 1 小时）。

Anthropic 声称，其 AI 模型不是为了消除工作岗位，而是一种将日常工作自动化的工具。不过 marktechpost媒体认为，Claude 4系列问世后，将改变AI的使用方式，让AI从完成单一任务的辅助工具，转换为具备更强、更广泛功能的“AI同事”，可以自动工作几乎一个完整的工作班次。

Claude Sonnet 4：平衡性能与成本的通用选择

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet，以更稳定的架构提升速度与质量，同时未显著增加计算成本。该模型针对中规模部署优化，适合需要在成本与性能间权衡的场景。

尽管推理能力不及 Opus 4，但 Sonnet 4 继承了许多架构升级，支持多文件代码导航、中间工具使用和结构化文本处理，延迟表现更佳。它成为 Claude.ai 免费用户的默认模型，并通过 API 提供服务，适用于轻量开发工具、用户助手和分析流程。

技术亮点与部署方式

两款模型均具备混合推理能力，提供“快速模式”（Fast Mode）用于低延迟的简短对话任务，以及“扩展思考模式”（Extended Thinking Mode）用于需要深度推理和多轮代理行为的复杂任务。

这种双模式策略让用户能根据任务复杂度灵活分配计算资源。此外，Claude Opus 4 和 Sonnet 4 可通过 Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多个云平台访问，支持从自主代理到代码分析等多种企业应用场景。

地表最强编程 AI：Claude 4 系列登场，自动写代码 7 小时刷新世界纪录
本站 5 月 23 日消息，Anthropic 公司在北京时间今天（5 月 23 日） 0 点 30 分举办的活动中，推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言

阅读详情
小米推出米家毛球修剪器 2：续航 180 分钟，售价 49.9 元
感谢本站网友 29元两抽的卫生纸、新心思的线索投递！本站 5 月 23 日消息，小米米家毛球修剪器 2 现已在小米有品等平台开售，售价 49 9 元，

阅读详情
美国 FTC 正式撤销对微软 687 亿美元收购动视暴雪的反垄断诉讼
本站 5 月 23 日消息，美国联邦贸易委员会（FTC）已正式撤销对微软 687 亿美元（本站注：现汇率约合 4947 43 亿元人民币）收购动视暴雪的反垄断诉讼。该决定发生在 FTC 针对该收购案的

阅读详情
古尔曼：苹果 AI 智能眼镜项目加速推进，目标在 2026 年底发布首款产品
本站 5 月 23 日消息，据彭博社马克・古尔曼今日报道，苹果正加速推进其智能眼镜研发计划，目标在 2026 年底发布首款产品，旨在进一步抢占人工智能增强设备市场。据知情人士透露，苹果工程师正加紧研发

阅读详情
苹果创新遇阻，消息称摄像头版 Apple Watch 项目中止开发
本站 5 月 23 日消息，彭博社昨日（5 月 22 日）发布博文，报道称苹果公司内部已取消在 Apple Watch 中加入摄像头的计划。苹果原计划 2027 年发布配备摄像头的 Apple Wat

阅读详情
Wedellink TC630 扩展坞亮相：自带显示屏，双 Type-C 接口
本站 5 月 22 日消息，Wedellink 今日于 2025 台北国际电脑展上推出了 TC630 扩展坞，该扩展坞自带一块点阵显示屏，支持 4K 分辨率的 HDMI 输出。▲ 产品实拍图，图源 N

阅读详情

地表最强编程 AI：Claude 4 系列登场，自动写代码 7 小时刷新世界纪录

相关文章

热门影评