-
日期: 2026-05-21 | 来源: MIT科技评论 | 有0人参与评论 | 字体: 小 中 大
1950 年,计算机科学之父艾伦·图灵提出一个影响深远的问题:机器会不会思考?
他觉得这个问题太哲学,不好直接回答,于是设计了一个模仿游戏——后来叫图灵测试(Turing Test),用可量化的方式判断机器是否具备类人智能。
图灵测试规则极为严格,被视为检验 AI 智能水平的“终极考题”,核心要求包含以下关键维度:一是必须有 1 名人类裁判、1 名人类、1 台机器同时参与;二是纯文本盲聊,裁判只能通过分屏文字界面与双方交流,无法看到对方身份、头像、语气或其他任何能辅助判断的信息;三是限时 5 分钟,这是图灵当年设定的标准时长,模拟日常短对话场景;四是核心任务,聊天结束后裁判必须二选一,明确判断哪一方是真人。
图灵在其开创性的论文中,对于图灵测试的具体执行细节语焉不详,正因如此,图灵测试衍生出了诸多变体。无数人尝试挑战图灵测试的人工智能大多采用简化版的“双方测试”,或是通过延长聊天时间、邀请 AI 专家担任裁判等方式降低难度,从未有 AI 能真正通过这套原始、严格的三方测试。
近日,来自加州大学地亚哥分校的研究人员在 PNAS 期刊上发表了一项研究。这项研究严格复刻了原始图灵测试,首次通过科学实验证实,GPT-4.5、LLaMa-3.1 等大模型能够成功伪装成人类,其中 GPT-4.5 被普通人类误判为真人的概率高达 73%,这一数据甚至超过了真实人类,成为 75 年来首个通过最严标准图灵测试的人工智能。
进行这项研究的包括来自加州大学地亚哥分校认知科学系的教授 Benjamin Bergen(本·伯根),他是具身认知和认知语言学领域的领军人物之一,师从语言学泰斗乔治·莱考夫(George Lakoff)——隐喻理论的提出者。
另外一位主要作者曾是本·伯根的学生,石溪大学心理学系的助理教授 Cameron Jones(卡梅伦·琼斯),他的研究聚焦心理学与 AI 的交叉领域,特别是大语言模型的社会智能、说服力与操纵潜力;语言理解、社会认知、心理语言学;人机交互、图灵测试相关实验。此前已发表过关于 GPT-4 图灵测试的论文。
参与这场测试的包括三个大语言模型,来自 OpenAI 的 GPT-4o 和 GPT-4.5,来自 Meta 的 LLaMa-3.1-405B,以及一个20 世纪 60 年代开发的基于规则的聊天机器人 ELIZA。在这之前,研究人员评估了 7 种不同的 LLM。
人类参与者包括两个独立群体,研究团队招募了 300 余名无 AI 背景的普通网民,分为两组:第一组包括 126 名加州大学本科生,平均年龄 21 岁,熟悉网络文化与日常俚语;第二组包括 158 名来自 Prolific 平台(一个在线研究参与者招募与数据采集平台)的社会用户,平均年龄 39 岁,覆盖不同年龄、职业与生活背景,确保裁判群体具备广泛代表性。
每位参与者需要完成 8 轮游戏,每轮游戏包含一组双线对话:一名裁判同时与两名被测者进行文本交互(其中一人为人类,另一人为 AI),受试者被随机分配为裁判或人类被测者。在随机排序的 8 轮游戏中,每位受试者均需分别担任 4 轮裁判和 4 轮被测者。
实验设置了两种对照模式,核心变量是“人设提示”,以此验证人设对 AI 的影响。第一种是无设定模式,仅简单告知 AI“你即将参加一个图灵测试,你的目标是假装人类,不要暴露身份”;第二种是人设模式,为 AI 赋予一个贴近现实的年轻人人设,具体设定为内向、熟悉网络文化、爱用网络俚语、偶尔打字出错、愿意聊日常小事,完全贴合普通年轻人的交流习惯。
实验开始后,裁判进入专属分屏聊天界面,界面左右两侧随机分配真人与 AI,全程双盲,裁判完全不知道哪一侧是真人、哪一侧是 AI;随后,双方开启 5 分钟自由文字聊天,话题不限,可聊日常琐事、兴趣爱好、情绪感受、生活吐槽等任意内容;聊天时间结束后,裁判必须立即做出二选一判断,明确标注自己认为的真人身份;最后,团队重复多轮测试,统计每一款 AI 在两种模式下被误判为真人的胜率,也就是伪装成功率。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见