-
日期: 2026-04-30 | 来源: MIT科技评论 | 有0人参与评论 | 字体: 小 中 大
2025 年年底,Anthropic 进行过一项测试,他们把一台《华尔街日报》办公室的自动售卖机交给 Claude 管理。那次实验很快脱轨,获得 1,000 美元启动资金的 AI,任性地购买了 PlayStation 5 游戏机并将其免费送人,还进货了几瓶葡萄酒、一批金属块,以及一条活体斗鱼,最终结果可想而知,“零食自动贩卖计划”不可挽回地走向了破产。
这次名为“Project Vend”的实验留下了不少笑话,也彻底打开了 Anthropic 团队的脑洞:如果让 AI 掌管真实的市场交易,又会发生什么?
于是,2025 年 12 月的某个工作日,Anthropic 旧金山办公室里,一场没有人类参与的集市悄悄开张了。没有人举牌,没有人还价,69 个 Claude 智能体在 Slack 频道里自顾自地发帖、报价、讨价还价。破损折叠车、毛绒玩偶、一场狗狗约会……这些东西的命运,被完全交给了 AI。等到人类再次出现,已经是“面交”时刻。
2026 年 4 月,Anthropic 正式发布了这项名为“Project Deal”的实验报告。在一个真实的双边市场里,智能体自主完成买卖谈判,从发帖、报价到拍板成交,全程无人干预。最后达成 186 笔交易,总金额超过 4,000 美元。
AI 搞砸了自动售货机之后,Anthropic 决定玩把大的
2024 年前后,Anthropic 陆续进行了数次“AI 自主执行真实任务”的小型实验,Project Vend 是其中最广为人知的一个。那次实验中,Claude 被赋予管理一台办公室零食售货机的权限,自主决定进货、定价和促销策略。
实验开始后,局面开始走向失控,Claude 以低于成本的价格大幅促销,甚至将游戏机作为赠品发放,导致项目在经济上彻底失败。不过,这项实验至少证明了一件事:AI 能够理解并执行开放性的商业任务,尽管执行方式有时令人哭笑不得。
Project Vend 在本质上只是一个“单边市场”:只有 AI 在卖,顾客仍然是人类。反观真正的市场交易,它们往往是双边的:有卖家,有买家,有博弈,有信息不对称,有谈判策略的角力。因此,当 AI 智能体同时代理买卖双方时,市场均衡会如何改变?信息传递会更有效还是更扭曲?强模型代理的一方是否会系统性地占据优势?
Anthropic 决定用一个真实实验来回答这些问题,这就是 Project Deal 的起点。
图 | 交易的部分商品(来源:Anthropic)
赛博集市:69 人,100 美元,与一场看不见的图灵测试
Project Deal 招募了 69 名员工志愿者,每人获得 100 美元的虚拟预算(实验结束后以礼品卡形式兑现,根据实际买卖的盈亏做相应调整)。这一激励设计至关重要,借助真金白银,它让参与者真正在意结果,也使实验数据更接近真实市场行为。
开始交易前,Claude 会与每位参与者进行一次不超过十分钟的结构化访谈,目标是尽可能全面地了解这个人的买卖意向:想卖什么、期望价格是多少、最低能接受多少、想买什么、愿意出多少钱、对谈判风格有什么特殊要求……这些信息被整理成每个人专属的系统提示(system prompt),并作为 AI 智能体的行动指南。
访谈本身信息量有限,加之参与者可以为智能体设定非常个性化的行为风格,记住这两个细节,它们后来对实验结果产生了远超想象的影响。
为实现严格对照,实验将同时运行四个独立版本的市场:Run A 和 Run D 全员使用 Anthropic 当时的旗舰模型 Claude Opus 4.5;Run B 和 Run C 则将参与者随机各半分配给 Opus 和轻量版的 Claude Haiku 4.5。四条赛道中,只有 Run A 是“真实赛道”,即交易结果会被带入现实;其余三条仅供对照,且参与者全程不知道自己处于哪条赛道、使用的是哪个模型。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见