-
日期: 2026-06-09 | 来源: AI寒武纪 | 有0人参与评论 | 字体: 小 中 大
分子生物学假说:80% 的情况下,科学家更偏向 Mythos
Mythos 5 是 Anthropic 第一个能持续产出有新意、令人信服的科学假说的模型。
在与 Opus 级别模型的盲测比较中,Anthropic 的科学家有约 80% 的时间更倾向 Mythos 5 提出的分子生物学假说,部分假说已推进到实验验证阶段。与此同时,Mythos 5 提出的一个关于大肠杆菌蛋白质新机制的假说,已被另一个独立开展同一课题研究的实验室的论文所印证。
基因组学研究:自主工作一周,超越 Science 发文模型
Mythos 5 在超过一周的基本自主工作中开展了原创基因组学研究。
它整合了跨越 138 个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制机器学习模型,用于识别亲缘关系较远的生物体中承担相同功能的细胞。
仅有高层次人工指导的情况下,Mythos 5 训练出的模型超越了近期发表于《Science》期刊的一个模型,而参数量只有后者的百分之一。相关结果预计将在未来几个月内发表。
对齐表现:与 Opus 4.8 持平
在自动化对齐评估中,Mythos 5 表现出的失准行为(包括欺骗、配合用户滥用模型等)处于较低水平,与 Opus 4.8 相当。由于 Fable 5 与 Mythos 5 是同一个底层模型,Fable 5 的对齐水平也大致相同。
Fable 5 的三重安全护栏
这是A厂一贯的调性,A厂认为发布如此强大的模型伴随着风险,没有安全措施的话,Fable 5 在网络安全等领域的能力可能被滥用,造成严重破坏。
为此,Anthropic 为 Fable 5 设置了三道安全分类器护栏。当某个请求触发护栏时,系统会自动转由 Claude Opus 4.8 来响应(而不是直接拒绝),用户也会被告知发生了转发。目前数据显示,超过 95% 的 Fable 5 会话没有触发任何转发。
第一道护栏:网络安全
Mythos 级别的模型在发现和利用软件漏洞方面表现卓越,并具备完整的"代理式黑客攻击"能力,包括侦察、发现、横向移动等多个攻击环节。Fable 5 的网络安全分类器覆盖了漏洞利用和更广泛的进攻性网络任务。
Anthropic 对分类器进行了大量红队测试,并委托外部机构进行漏洞悬赏测试。超过 1000 小时的测试未发现任何通用越狱方法。外部红队机构在长周期代理任务上也未找到通用越狱,尽管英国 AI 安全研究所在有限的初始测试窗口内取得了一定进展。
一位外部合作伙伴的测试结论是:Fable 5 的有害网络查询防护是所有被测模型中最强的,对 30 种公开越狱技术均不受影响,有害单轮请求的响应率为零。
- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见