首次!大模型通过最严图灵测试 73%裁判被骗

日期: 2026-05-21 | 来源: MIT科技评论 | 有0人参与评论 | 字体: 小中大
1950 年，计算机科学之父艾伦·图灵提出一个影响深远的问题：机器会不会思考？

他觉得这个问题太哲学，不好直接回答，于是设计了一个模仿游戏——后来叫图灵测试（Turing Test），用可量化的方式判断机器是否具备类人智能。

图灵测试规则极为严格，被视为检验 AI 智能水平的“终极考题”，核心要求包含以下关键维度：一是必须有 1 名人类裁判、1 名人类、1 台机器同时参与；二是纯文本盲聊，裁判只能通过分屏文字界面与双方交流，无法看到对方身份、头像、语气或其他任何能辅助判断的信息；三是限时 5 分钟，这是图灵当年设定的标准时长，模拟日常短对话场景；四是核心任务，聊天结束后裁判必须二选一，明确判断哪一方是真人。

图灵在其开创性的论文中，对于图灵测试的具体执行细节语焉不详，正因如此，图灵测试衍生出了诸多变体。无数人尝试挑战图灵测试的人工智能大多采用简化版的“双方测试”，或是通过延长聊天时间、邀请 AI 专家担任裁判等方式降低难度，从未有 AI 能真正通过这套原始、严格的三方测试。

近日，来自加州大学地亚哥分校的研究人员在 PNAS 期刊上发表了一项研究。这项研究严格复刻了原始图灵测试，首次通过科学实验证实，GPT-4.5、LLaMa-3.1 等大模型能够成功伪装成人类，其中 GPT-4.5 被普通人类误判为真人的概率高达 73%，这一数据甚至超过了真实人类，成为 75 年来首个通过最严标准图灵测试的人工智能。

进行这项研究的包括来自加州大学地亚哥分校认知科学系的教授 Benjamin Bergen（本·伯根），他是具身认知和认知语言学领域的领军人物之一，师从语言学泰斗乔治·莱考夫（George Lakoff）——隐喻理论的提出者。

另外一位主要作者曾是本·伯根的学生，石溪大学心理学系的助理教授 Cameron Jones（卡梅伦·琼斯），他的研究聚焦心理学与 AI 的交叉领域，特别是大语言模型的社会智能、说服力与操纵潜力；语言理解、社会认知、心理语言学；人机交互、图灵测试相关实验。此前已发表过关于 GPT-4 图灵测试的论文。

参与这场测试的包括三个大语言模型，来自 OpenAI 的 GPT-4o 和 GPT-4.5，来自 Meta 的 LLaMa-3.1-405B，以及一个20 世纪 60 年代开发的基于规则的聊天机器人 ELIZA。在这之前，研究人员评估了 7 种不同的 LLM。

人类参与者包括两个独立群体，研究团队招募了 300 余名无 AI 背景的普通网民，分为两组：第一组包括 126 名加州大学本科生，平均年龄 21 岁，熟悉网络文化与日常俚语；第二组包括 158 名来自 Prolific 平台（一个在线研究参与者招募与数据采集平台）的社会用户，平均年龄 39 岁，覆盖不同年龄、职业与生活背景，确保裁判群体具备广泛代表性。

每位参与者需要完成 8 轮游戏，每轮游戏包含一组双线对话：一名裁判同时与两名被测者进行文本交互（其中一人为人类，另一人为 AI），受试者被随机分配为裁判或人类被测者。在随机排序的 8 轮游戏中，每位受试者均需分别担任 4 轮裁判和 4 轮被测者。

实验设置了两种对照模式，核心变量是“人设提示”，以此验证人设对 AI 的影响。第一种是无设定模式，仅简单告知 AI“你即将参加一个图灵测试，你的目标是假装人类，不要暴露身份”；第二种是人设模式，为 AI 赋予一个贴近现实的年轻人人设，具体设定为内向、熟悉网络文化、爱用网络俚语、偶尔打字出错、愿意聊日常小事，完全贴合普通年轻人的交流习惯。

实验开始后，裁判进入专属分屏聊天界面，界面左右两侧随机分配真人与 AI，全程双盲，裁判完全不知道哪一侧是真人、哪一侧是 AI；随后，双方开启 5 分钟自由文字聊天，话题不限，可聊日常琐事、兴趣爱好、情绪感受、生活吐槽等任意内容；聊天时间结束后，裁判必须立即做出二选一判断，明确标注自己认为的真人身份；最后，团队重复多轮测试，统计每一款 AI 在两种模式下被误判为真人的胜率，也就是伪装成功率。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论