-
日期: 2025-11-28 | 来源: 硅星人 | 有0人参与评论 | 专栏: 谷歌 | 字体: 小 中 大
如果不是亲耳听到,很难想象一家科技巨头会在镜头前承认:“两年半前,我们远远落后了。”在这次访谈里,DeepMind CTO、Google 首席 AI 架构师 Koray Kavukcuoglu 罕见地拆开了过去两年 Google 的真实处境——不是领先、不是规模,而是被时代加速甩在身后、再一点点追上来的过程。
他没有炫耀参数,也没有谈模型的“神迹”,而是把重点放在更底层、更残酷的问题上:一家全球最强的 AI 实验室,如何在巨大的惯性中重新学会创新、学会工程化、学会组织协作、学会把技术真正变成产品?
Gemini 的故事只是表层。真正发生变化的,是 Google 这家公司的骨架与节奏。
原文访谈链接:
https://www.youtube.com/watch?v=fXtna7UrL44
以下是根据访谈实录整理的关键议题,希望也能帮你更清晰地读懂 Google 的这次“重构”。
一、真正的起点不是突破,而是承认自己落后了
访谈中最刺耳也最重要的一句话,出现在结尾:
“当 Gemini 项目开始时,我们离最先进水平还很远,那是一个追赶。”
这句话标志着一个巨大的认知转折:Google 承认自己在 LLM 起跑线上是真正的落后者。不是“状态不好”这种轻描淡写,而是“远远落后”。这意味着 DeepMind 必须抛弃此前十年建立的自信,从最基础的用户使用场景重新学习。
而这种承认,是一切变化的源头。Koray 在访谈里反复强调:真正的转折不是某个新技术,而是 Google 接受自己必须重新建立训练方式、产品方式、工程方式以及组织方式。
二、为什么中国用户最先明显感觉到 Gemini 变好了?
访谈一开始,主持人提到一个特别中国的反馈:Gemini 3 在中国用户中被形容为“像 Windows XP 一样稳定好使”。Koray 很有兴致地解释,这不是模型本身突然“智商暴涨”,而是 Google 终于把“模型 × UI × 任务链路”统一到了一起。
以前的大模型“聪明”,但不“好使”。而 Gemini 3 的转折来自:
用户界面更直觉
任务拆解更稳定
模型更能理解人类意图
产品团队从训练阶段就介入模型设计
真实用户使用数据可以直接反哺训练
换句话说,Google 终于开始像一家做产品的公司在做大模型。这是 Gemini 3 变化最直观的原因,也是中国用户最先体会到的原因。
三、Benchmark 正在失效,但真实世界永远不会
外界批评 Google 的 benchmark 成绩起伏不定,但 Koray 的解释很罕见地触及本质:主流 benchmark 正在靠近它们的自然上限。GPQA、ARC-AGI 等“智商题”已经被模型顶住,HLE 这种曾经难得离谱的测评如今也能“持续提升”。
Benchmark 会枯竭,但真实世界不会。学生写作、科学研究、专业翻译、复杂跨语境对话、跨语言表达……这些场景永远无法被一个固定测试集穷尽。Google 把模型的最终价值从“得分”转向“能不能帮人完成任务”。这是 Gemini 的第一性原理转变。
四、Gemini 3 的核心不是智力提升,而是让模型“能干活”
从 Gemini 3 开始,Google 清晰确立了三个优先级最高的能力方向。
第一是 指令遵从。模型要能“无二义性地理解和执行用户的真实意图”。这对用户体验影响巨大,比提升推理指标更重要。
第二是 国际化能力。Google 的用户覆盖超过 200 个国家,“理解全球不同文化语境”成为模型能力的底层指标,而不是翻译能力的延伸。
第三是 工具调用与代码执行。这是未来智能体的基础,模型必须不仅能理解问题,还能执行任务、运行工具链、处理工程环境中的真实任务。
三者加在一起,构成了 Google 的 “Gemini 设计哲学”:智能不是来自“更聪明的对话”,而来自“更可靠的执行”。
五、为什么多模态强的 Google,起初 Agent 却不好用?
这是主持人问得最尖锐的问题,也是外界最想知道的矛盾。Koray 的答案意外朴素:研究员可以在实验室推动视觉理解,但 Agent 的任务不是研究员能想出来的,是用户逼出来的。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见