Anthropic 发布 Claude Opus 4.8:诚实度提升四倍,Dynamic Workflows 赋能多代理协作

Anthropic 推出升级版旗舰模型 Claude Opus 4.8,在代码审查中的诚实度提升四倍,并发布 Dynamic Workflows 工具协调数百个并行子代理。该模型在自主任务可靠性和自我纠错能力方面的显著提升,为 AI Agent 在金融支付、交易执行等高风险场景的应用奠定更坚实的技术基础。

Cobo 新闻室
Cobo 新闻室2026年5月29日
要点速览
  • Claude Opus 4.8 在代码缺陷识别中的诚实度较前代提升四倍,更主动标记不确定性并减少无根据声明
  • 新推出的 Dynamic Workflows 工具可协调数百个并行子代理执行复杂任务,支持跨数十万行代码的大规模迁移
  • 模型在代理编码任务中得分从 64.3% 提升至 69.2%,多学科推理能力从 54.7% 提升至 57.9%
  • Anthropic 将在数周内发布更强大的 Mythos 级模型,该模型已通过 Project Glasswing 发现超过 10000 个关键软件漏洞
  • 此次发布距 Opus 4.7 仅 41 天,是 Anthropic 有史以来最快的升级周期,反映出与 OpenAI 和 Google 的激烈竞争态势
  • 模型定价维持不变,立即在所有 Anthropic 产品中可用

News illustration

简介

Anthropic 推出升级版旗舰模型 Claude Opus 4.8,在代码审查中的诚实度提升四倍,并发布 Dynamic Workflows 工具协调数百个并行子代理。该模型在自主任务可靠性和自我纠错能力方面的显著提升,为 AI Agent 在金融支付、交易执行等高风险场景的应用奠定更坚实的技术基础。

诚实度成为核心竞争力

Anthropic 在 5 月 28 日发布的 Claude Opus 4.8 将诚实度推向了大语言模型竞争的前沿。根据官方数据,新模型在代码审查场景中对自身编写代码缺陷的标注能力较 Opus 4.7 提升了四倍。这一改进直击当前 AI 模型的核心痛点:过度自信和虚假确定性。

早期测试者的反馈印证了这一进步。全球最大对冲基金之一 Bridgewater Associates 在评测中指出,Opus 4.8 最显著的差异在于主动标记分析输入输出中的问题,而其他模型通常会忽略这些问题,留给用户自行发现。这种主动质疑的能力对于金融、法律等高风险领域的 AI 应用至关重要。

在 AI Agent 日益渗透支付处理、资产管理等金融场景的背景下,模型的诚实度直接关系到系统的可靠性。一个能够识别并标注自身不确定性的模型,比一个始终表现出虚假自信的模型更适合处理涉及资金流动的自主决策任务。对于需要在复杂监管环境中运营的机构而言,这种透明度是构建可审计 AI 系统的基础。

Dynamic Workflows:多代理协作的新范式

与模型本身同步发布的 Dynamic Workflows 工具,代表了 Anthropic 在多代理系统架构上的新探索。该工具设计用于帮助 Opus 等大型模型管理跨数百个并行子代理的复杂任务。

Anthropic 在发布说明中给出了一个典型应用场景:配合 Claude Code 使用时,Opus 4.8 现在可以执行跨数十万行代码的代码库级迁移,从启动到合并,以现有测试套件作为质量标准。这种能力将大规模软件工程任务的自动化水平提升到了新高度。

从技术架构角度看,Dynamic Workflows 解决了多代理系统中的关键协调问题。在支付系统、交易执行等金融应用中,往往需要多个专门化的 Agent 协同工作,包括风险评估 Agent、合规检查 Agent、交易执行 Agent 等。Dynamic Workflows 提供的协调框架,使得这些专门化 Agent 能够在保持各自专业性的同时,形成可靠的协作流程。

对于数字资产托管等场景,这种多代理协作能力尤为重要。一个完整的托管操作可能涉及身份验证、权限检查、交易构建、风险评估、合规验证等多个环节,每个环节都需要专门的处理逻辑。Dynamic Workflows 为构建这类复杂的自动化工作流提供了更强大的工具支持。

基准测试全面提升

Opus 4.8 在 Anthropic 发布的各项基准测试中均实现了提升。在代理编码任务中,得分从 64.3% 提升至 69.2%;多学科推理能力从 54.7% 提升至 57.9%;代理计算机使用能力从 82.8% 提升至 83.4%;知识工作得分从 1753 提升至 1890。

这些数字背后反映的是模型在实际应用场景中的可靠性提升。对于需要处理多步骤、多领域任务的 AI Agent 而言,这种综合能力的提升意味着更高的任务成功率和更低的人工干预需求。

值得注意的是,Anthropic 的对齐评估显示,Opus 4.8 在保持能力提升的同时,并未在安全性方面出现退化。这种能力与安全性的平衡,是负责任 AI 开发的重要指标,对于需要在监管框架内运营的金融机构尤为关键。

快速迭代背后的竞争压力

此次发布距离 Opus 4.7 仅 41 天,是 Anthropic 有史以来最快的升级周期。相比之下,最新的 Sonnet 和 Haiku 模型分别已发布三个月和七个月。这种加速迭代的背后,是激烈的市场竞争态势。

Opus 4.7 的市场反应相对冷淡,部分用户表示失望。与此同时,OpenAI 的 Codex 和 Google 的 Gemini Flash 模型都发布了重要更新,给 Anthropic 带来了保持领先地位的压力。快速推出 4.8 版本,既是对用户反馈的回应,也是在激烈竞争中保持相关性的必要举措。

对于企业用户而言,这种快速迭代既是机遇也是挑战。一方面,更频繁的更新意味着能够更快获得性能改进;另一方面,也需要更敏捷的集成和测试流程来跟上模型的演进速度。对于已经在生产环境中部署 AI Agent 的机构,建立稳健的模型版本管理和回归测试机制变得越来越重要。

Mythos 模型与网络安全的双刃剑

Anthropic 透露,更强大的 Mythos 级模型将在数周内发布。该模型已在 Project Glasswing 项目中展现出惊人的漏洞发现能力,识别出超过 10000 个关键软件漏洞。

这一能力引发了监管机构的高度关注。据报道,欧盟委员会官员正计划与 Anthropic 会面,要求获取 Mythos 模型的更多信息,并请求向欧盟开放该模型。由于 Mythos 在网络安全方面的强大能力可能构成重大风险,欧盟的任何访问决定可能都需要美国政府批准。

这一事态发展凸显了先进 AI 模型在网络安全领域的双重性质。一方面,强大的漏洞发现能力可以帮助企业和机构提前识别并修复安全隐患;另一方面,同样的能力在恶意行为者手中可能成为强大的攻击工具。

对于金融科技和数字资产行业而言,这种能力既是威胁也是机遇。能够主动识别系统漏洞的 AI 工具可以显著提升安全防护水平,但同时也需要建立严格的访问控制和使用监督机制,防止这些工具被滥用。

对 AI Agent 应用的启示

Claude Opus 4.8 的发布为 AI Agent 在金融服务领域的应用提供了更坚实的技术基础。诚实度的提升意味着 Agent 能够更可靠地识别自身能力边界,这对于需要在监管框架内运营的金融应用至关重要。

Dynamic Workflows 工具的引入,则为构建复杂的多代理系统提供了新的可能性。在支付处理、资产托管、交易执行等场景中,多个专门化 Agent 的协同工作是实现端到端自动化的关键。这种协调能力的提升,有望加速 AI Agent 在这些领域的实际部署。

然而,快速的技术迭代也对企业的 AI 治理能力提出了更高要求。如何在享受技术进步带来的效率提升的同时,确保系统的稳定性、可审计性和合规性,是每个采用 AI Agent 技术的机构都需要认真思考的问题。建立完善的模型评估、版本管理和风险监控机制,将成为负责任地应用这些先进技术的必要条件。

Source: 链接

AIPAYMENTREGULATIONS

关于 Cobo

Cobo 是一家面向机构的数字资产基础设施提供商,成立于 2017 年。Cobo Agentic Wallet 将 Cobo 的 MPC 托管平台延伸至自主链上 Agent。

媒体垂询: [email protected] · 媒体资料包、高管简介及更多材料可应需提供。

更多新闻

Cobo 智能体经济

每周五,直达你的收件箱。

来自 Cobo 团队的每周通讯 —— 以机构托管的视角,解读加密、AI 与支付领域最具影响力的故事。