-
日期: 2026-02-19 | 来源: 腾讯科技 | 有0人参与评论 | 专栏: 谷歌 | 字体: 小 中 大
Gemini 3.1 Pro的得分在各项标准测试中均碾压同类竞品
Gemini 3 Pro之前的得分是31.1%,而Gemini 3.1 Pro一口气冲到了77.1%。谷歌DeepMind的老板戴密斯·哈萨比斯(Demis Hassabis)也特地发文说,这标志着模型在核心推理和问题解决能力上有了重大改进。
但真正的杀手锏,还不是得分。Gemini 3.1 Pro这次引入了一个“三级思考”模式——低、中、高。你可以把它理解为给模型装了一个可以调节的“算力旋钮”。简单说,就是用户可以根据任务难度,自己决定让模型花多少时间思考。
之前的Gemini 3 Pro只有两档:低和高。这次Gemini 3.1 Pro在中间加了一档,同时调整了“高”模式的含义。调到高的时候,模型会进入类似Deep Think的状态。Deep Think是谷歌上周更新的推理模型,特点是花更多时间处理复杂问题。现在Gemini 3.1 Pro自己就能做这件事,不用单独切换。
这个功能主要解决一个实际问题。以前开发者处理不同难度的任务,往往需要准备多个模型,简单对话用一个,复杂推理用另一个。接口不同,计费不同,还得自己写逻辑判断该调用哪个。时间长了,这套东西维护起来比较麻烦。
现在一个模型就够了。常规任务用低档,可以快速返回;复杂任务用高档,让它多花点时间处理。不用来回切换,也不用维护多个模型。
02 “抢王座”,跑分大比分获胜
既然是来“抢王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6这些老对手掰掰手腕。
从纸面数据看,Gemini 3.1 Pro这次确实挺能打。Artificial Analysis的智能指数测试里,它在10项评估中拿下了6项第一,包括Terminal-Bench Hard(编码)、GPQA Diamond(科学知识)和Humanity's Last Exam(推理知识)。
在Artificial Analysis的智能指数测试中,Gemini 3.1 Pro吊打对手
尤其在测试模型是否“不懂装懂”的AA-Omniscience幻觉率上,Gemini 3.1 Pro比前代狂降了38个百分点,这意味着它现在更清楚自己“不知道什么”,而不是瞎编一通。
在AA-Omniscience测试中,Gemini 3.1 Pro幻觉率大幅下降
在一项针对研究级物理推理问题的CritPt测试中,Gemini 3.1 Pro更是拿下了18%的分数,比第二名的模型高出5个百分点以上。Artificial Analysis对此评价称,这表明谷歌这次在底层智能上确实下了狠功夫。
不过,AI圈的竞争从来不只是“考高分”。在更贴近用户体验的Arena排行榜上,情况就没那么一边倒了。这个榜单靠用户给不同模型的回答投票排名,比的不是逻辑对错,而是谁的回答看起来更“顺眼”。目前,在纯文本任务上,Claude Opus 4.6依然领先Gemini 3.1 Pro 4分,在代码任务上,Opus系列和GPT-5.2也还保持着微弱优势。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见