Anthropic深夜发布Claude Fable 5 屠榜所有测试

日期: 2026-06-09 | 来源: AI寒武纪 | 有0人参与评论 | 字体: 小中大
分子生物学假说：80% 的情况下，科学家更偏向 Mythos

Mythos 5 是 Anthropic 第一个能持续产出有新意、令人信服的科学假说的模型。

在与 Opus 级别模型的盲测比较中，Anthropic 的科学家有约 80% 的时间更倾向 Mythos 5 提出的分子生物学假说，部分假说已推进到实验验证阶段。与此同时，Mythos 5 提出的一个关于大肠杆菌蛋白质新机制的假说，已被另一个独立开展同一课题研究的实验室的论文所印证。

基因组学研究：自主工作一周，超越 Science 发文模型

Mythos 5 在超过一周的基本自主工作中开展了原创基因组学研究。

它整合了跨越 138 个动物物种、数百万个细胞的单细胞数据，设计并训练了一个定制机器学习模型，用于识别亲缘关系较远的生物体中承担相同功能的细胞。

仅有高层次人工指导的情况下，Mythos 5 训练出的模型超越了近期发表于《Science》期刊的一个模型，而参数量只有后者的百分之一。相关结果预计将在未来几个月内发表。

对齐表现：与 Opus 4.8 持平

在自动化对齐评估中，Mythos 5 表现出的失准行为（包括欺骗、配合用户滥用模型等）处于较低水平，与 Opus 4.8 相当。由于 Fable 5 与 Mythos 5 是同一个底层模型，Fable 5 的对齐水平也大致相同。

Fable 5 的三重安全护栏

这是A厂一贯的调性，A厂认为发布如此强大的模型伴随着风险，没有安全措施的话，Fable 5 在网络安全等领域的能力可能被滥用，造成严重破坏。

为此，Anthropic 为 Fable 5 设置了三道安全分类器护栏。当某个请求触发护栏时，系统会自动转由 Claude Opus 4.8 来响应（而不是直接拒绝），用户也会被告知发生了转发。目前数据显示，超过 95% 的 Fable 5 会话没有触发任何转发。

第一道护栏：网络安全

Mythos 级别的模型在发现和利用软件漏洞方面表现卓越，并具备完整的"代理式黑客攻击"能力，包括侦察、发现、横向移动等多个攻击环节。Fable 5 的网络安全分类器覆盖了漏洞利用和更广泛的进攻性网络任务。

Anthropic 对分类器进行了大量红队测试，并委托外部机构进行漏洞悬赏测试。超过 1000 小时的测试未发现任何通用越狱方法。外部红队机构在长周期代理任务上也未找到通用越狱，尽管英国 AI 安全研究所在有限的初始测试窗口内取得了一定进展。

一位外部合作伙伴的测试结论是：Fable 5 的有害网络查询防护是所有被测模型中最强的，对 30 种公开越狱技术均不受影响，有害单轮请求的响应率为零。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论