-
日期: 2026-05-20 | 來源: 愛范兒 | 有0人參與評論 | 專欄: 谷歌 | 字體: 小 中 大
Gemini App 月活超 9 億,月 Token 處理量每月 3200 萬億,Nano Banana 生成超過 500 億張圖片……
在今天凌晨剛剛結束的 Google I/O 大會上,Google CEO Demis Hassabis 上來就拋出了這些數字。
過去壹年,AI 成了所有行業的主旋律,Gemini 在 Google 的定位,也開始從壹個獨壹的 App,成了所有 Google 產品裡的最重要的 AI 底層能力。
這次發布會也先從模型開始,進壹步帶到 Coding 和 Agent 產品。
Gemini Omni 把 Google 的視頻生成推向「世界模型」方向,Gemini 3.5 Flash 則是和 AI 編程工具壹起推向 Agent 開發平台。
這兩個能力隨後進入 Google 的完整生態,搜索、Gemini App、Flow、Spark、Chrome、XR 眼鏡和電商場景。
Gemini Omni 登場,視頻界的「Nano Banana」時刻來了
發布會最先被重點展開的是 Gemini Omni。我們做了壹組和 Seedance 2.0 的對比視頻,看看兩者的差別。
Google 則是將 Gemini Omni 描述為壹個能夠「從任何輸入創造任何內容」的新模型。
它把 Gemini 的推理能力與 Google 既有的生成式媒體模型結合起來,目標是提升模型對世界的理解、多模態生成能力和編輯能力。
Google 強調,Veo、Nano Banana、Genie 等模型已經能生成視頻、圖片和交互式模擬,但 Gemini Omni 更進壹步,開始處理動能、重力等更接近物理世界的問題。
發布會現場展示的案例包括蛋白質折疊解釋視頻。用戶只需要輸入類似「生成壹個關於蛋白質折疊的黏土動畫解釋」的提示,Omni 就能把抽象科學概念轉化成視頻內容。
它還支持更自然的視頻編輯。用戶可以上傳自己的視頻,再用對話方式修改風格、加入元素、調整細節,甚至把壹個普通圓形轉成黑洞,把夜晚散步場景變成更具戲劇感的畫面。
Google 的說法是,Gemini Omni 先從視頻開始,之後會逐步走向「任意輸入到任意輸出」。這也是 Google 壹直把 Gemini 設計成多模態模型的原因。
首個 Omni 家族模型 Gemini Omni Flash 已在上線到 Google 產品中,Omni Pro 會在之後公布更多信息。Gemini App 中的 Omni 功能也面向 Google AI Plus、Pro 和 Ultra 訂閱用戶開放。
這意味著,Gemini Omni 不只是壹個視頻生成模型。Google 想把它放進「世界模型」的敘事裡:模型不僅生成畫面,還要理解畫面中的物理關系、運動關系和場景邏輯。
在進入 Gemini App、Google Flow 和 YouTube Shorts 這些應用之後, Omni 也會讓 Google 的生成式創作工具從圖片編輯擴展到視頻編輯。
Gemini 3.5 Flash 上線,AI 寫代碼進入極速模式
如果 Gemini Omni 對應的是生成和編輯,Gemini 3.5 Flash 對應的就是速度、成本和執行能力。
Google 在發布會上推出 Gemini 3.5 Flash,稱它是 Gemini 3.5 系列第壹批模型之壹,重點面向 agentic coding、長周期任務和真實工作流。
相比 3.1 Pro,3.5 Flash 在幾乎所有基准測試中提升明顯,尤其是代碼能力,以及 GDPVal 這類更接近真實經濟任務的評測。
除了基准測試表現不錯,3.5 Flash 在輸出 tokens 速度上比其他前沿模型快 4 倍,在 Antigravity 中經過專門優化後,速度可達到 12 倍。
值得壹提的是,今年 3 月,Google 內部開發相關任務每天處理約 5000 億 tokens,之後每隔幾周翻倍,目前已經超過每天 3 萬億 tokens。Google 把這稱為壹個反饋循環,用大規模真實使用繼續改進 3.5 Flash。
與模型同步推出的是 Antigravity 2.0。
它從原來的 agent powered IDE,升級為壹個獨立桌面應用,重點轉向 agent first。用戶不再只是讓 AI 在編輯器裡輔助寫代碼,而是通過 Agent 對話、Agent 產物和多 Agent 協同來完成開發任務。
Antigravity 2.0 加入完整 CLI、Antigravity SDK、Gemini 音頻模型原生語音支持,並集成 Android、Firebase、Google AI Studio 等服務。Antigravity 2.0 作為獨立桌面應用,也已經面向全球用戶開放。
Google 在現場用壹個高強度演示解釋 Antigravity 2.0 的方向:讓 Agent 從零構建壹個可運行操作系統。這個任務由 93 個子 Agent 並行執行,持續 12 小時,發起超過 1.5 萬次模型請求,處理 26 億 tokens,從空項目生成調度器、內存管理、文件系統等核心模塊。
Google 稱,這件事在 Gemini 3.1 Pro 上無法完成,而使用 Gemini 3.5 Flash 消耗不到 1000 美元 API credits。
現場還演示了這個系統運行 SL 小火車程序和 Doom。由於系統最初缺少視頻和鍵盤驅動,Antigravity 又繼續生成相關代碼並修復,讓 Doom 能夠運行。Google 還稱,類似方式已經測試過照片編輯套件、實時消息應用、多用戶協作平台等項目,原本需要多天的工程工作被壓縮到數小時甚至更短。
Gemini 3.5 Flash 已面向所有用戶開放,覆蓋 Google 產品和 API。Gemini 3.5 Pro 仍在內部使用和改進中,預計下個月開放。
從搜索框到信息 Agent,Google 重做 AI 搜索
模型和開發工具之後,Google 把重點轉向搜索。Google 搜索也就是 AI 搜索。
Google 表示,AI Mode 已經超過 10 億月活,查詢量自推出以來每季度翻倍。
今天起,AI Mode 升級到 Gemini 3.5。新的智能搜索框也從當天開始推送。它支持文本、圖片、文件和視頻輸入,並在用戶輸入問題時給出 AI 建議。
AI Overviews 和 AI Mode 也被合並成更連續的 AI 搜索體驗。用戶可以先在主搜索結果頁看到 AI 回答,再進入 AI Mode 繼續追問,上下文會被保留。這個新搜索體驗已在發布會當天面向全球桌面端和移動端上線。
更大的變化是搜索 Agent。用戶今年夏天將可以在 Search 中創建信息 Agent,讓它持續跟蹤某類信息。
例如,用戶可以讓它監控市盈率低於 15、現金流為正、負債較低的大型生物科技股票;也可以讓它長期跟蹤租房信息、球鞋聯名和商品上新。當條件變化時,Agent 會給用戶發送綜合更新。
Google 還把 Antigravity 的 agentic coding 能力帶入搜索。
之後搜索不只返回網頁、摘要或卡片,也能為具體問題生成交互界面。比如用戶問「黑洞如何影響時空」,Search 可以生成壹個交互式視覺組件;繼續追問「雙黑洞如何產生引力波」,Search 會重新生成壹個可調參數的動態界面。Generative UI with Antigravity 將在今年夏天面向所有用戶免費推出。
更復雜的自定義體驗也在路上。
Google 現場展示了壹個周末計劃器,Search 會結合天氣、地圖、用戶偏好、Gmail、Calendar 等信息,生成壹個可以繼續修改、分享和同步日歷的小型工具。這類自定義體驗將在未來幾個月先面向訂閱用戶開放。
關機也能跑,Gemini Spark 把 Agent 能力搬進個人生活
消費端最重要的新產品是 Gemini Spark。
Gemini Spark 是壹個個人 AI Agent,運行在 Google Cloud 的專用虛擬機上,可以全天候執行任務。它由 Gemini 3.5 和 Antigravity harness 驅動,支持長時間後台任務。
用戶關掉電腦後,Spark 仍能繼續工作。它先接入 Google 自家工具,未來幾周會通過 MCP 接入第叁方工具。
發布會展示了 Spark 的幾個典型場景。
用戶可以讓它匯總過去壹周 Gemini Live 的發布和進展,從 Docs、Gmail 和聊天記錄裡提取信息,再用個人寫作風格生成團隊郵件。
也可以讓它管理街區派對,維護 Google Sheets RSVP 表格,跟蹤誰帶了什麼東西,給沒報名的鄰居生成提醒郵件草稿,並自動生成 Google Slides 宣傳頁。
Spark 還支持手機端語音輸入。
用戶可以壹次說出多項任務,比如把所有與 Sundar 的會標成亮粉色,給新鄰居寫邀請信,創建孩子學年結束前待辦文檔。Spark 會把這些內容分成多個獨立任務,並在後台執行,結果可以在手機和電腦之間同步。
Gemini Spark 本周面向部分測試者開放,下周以 beta 形式面向美國 Google AI Ultra 訂閱用戶推出。
Google 同時推出每月 100 美元的新 Ultra 計劃,並把最高檔 Ultra 計劃從每月 250 美元降至 200 美元。
今年夏天晚些時候,Spark 將進入 Chrome,成為能在網頁中執行任務的智能體瀏覽器。
Gemini App 大改版,還有 Google 版「AI 晨報」
Gemini App 本身也迎來了壹次脫胎換骨的大改版。
Google 引入了全新的設計語言 Neural Expressive,加入流體動畫、鮮艷色彩、新字體和觸覺反饋。
新版 Gemini App 不再把回答呈現為大段文字,而是會根據內容實時生成更適合閱讀和操作的布局,包括交互圖片、時間線、嵌入式視頻等。Neural Expressive 現在已經在 Android、iOS 和網頁端全球推送。
Gemini Live 也被重做,打開後可以直接進入實時對話。區域口音選擇將在未來幾周推出。
Gemini App 還加入 Daily Brief。這是壹個面向早晨使用的個性化摘要 Agent,會綜合 Gmail、Calendar、Tasks 等信息,整理用戶當天需要關注的事項,並給出下壹步行動入口。
Daily Brief 今天起面向美國 Google AI Plus、Pro 和 Ultra 訂閱用戶推出。
在更大的 Gemini 敘事之外,Google 也更新了幾個日常產品。
Google Maps 最近完成拾年來最大升級,並加入 Ask Maps。它允許用戶提出更長、更復雜的問題。例如,發布會舉了壹個場景:孩子掉進鴨塘,婚禮 30 分鍾後開始,用戶想知道哪裡可以步行買到新裙子。
Docs 也獲得新的語音創建能力。用戶不需要輸入精確提示詞,可以直接用語音把想法說出來,讓 Gemini 從 Drive 調取簡歷,從 Gmail 找到活動信息,再生成 Google Docs 草稿。這個能力將在今年夏天面向 Pro 和 Ultra 訂閱用戶推出,同類語音能力也會進入 Gmail。
生成能力升級後,內容來源識別也變得愈發重要。
Google 稱,SynthID 推出叁年來,已為超過 1000 億張圖片和視頻,以及相當於 6 萬年時長的音頻加上不可見水印。接下來,SynthID 和內容憑證驗證會擴展到 Search 和 Chrome。
用戶可以通過圈選搜索,或者在 Chrome 中右鍵詢問內容是否由 AI 生成,系統會顯示內容來自 AI、相機,還是曾被生成式 AI 工具編輯。
Google 還宣布,OpenAI、Kakao 和 ElevenLabs 將采用 SynthID 2。此前英偉達已經加入 SynthID 體系。對 Google 來說,SynthID 不只是安全功能,也是爭取 AI 內容透明標准的壹部分。
Google 創作全家桶,開始圍攻圖片、設計和視頻
在創意工具領域,Google 密集發布了多款重磅產品。
Google Pics 是 Google Workspace 中的新圖片創建和編輯產品,面向派對海報、信息圖、宣傳圖等場景。用戶可以從壹張基礎圖開始,刪除元素、調整對象大小、編輯文字和翻譯文字。Pics 生成內容會帶有 SynthID 水印。Google Pics 將在今年夏天推出。
設計產品 Stitch 也迎來更新。用戶可以通過壹句 prompt 生成網站或應用界面,再通過文字或語音繼續修改,比如放大標題、調整菜單、突出更多披薩選項。Stitch 支持把設計導出為代碼,或直接發布網站,相關更新現已發布。
Google Flow 的更新尤為關注。Gemini Omni 進入 Flow 後,用戶可以基於原始視頻改變環境、添加視覺效果、加入新角色,同時盡量保留原有表演。
Flow 還加入新 Agent,支持壹次執行多個動作。比如從單張圖片生成 16 個不同機位的視頻,或把壹組清晨場景批量改成深夜場景。
Flow Tools 則允許用戶在 Flow 中創建自己的創意工具,比如視頻特效、手繪動畫和文字分層工具,並支持分享和 remix。
Google Flow Music 可以把壹段鋼琴 riff 擴展成帶風格方向的音樂 demo。Google Flow 和 Google Flow Music 的這些新功能已上線。
押注智能眼鏡,Google 再闖下壹代入口
硬件部分,Google 也把 Android XR 這個操作系統級平台,從頭顯、XR 設備,進壹步擴展到智能眼鏡形態。
Android XR 是 Google 與叁星合作,並針對 Qualcomm Snapdragon 優化的平台。
Google 表示,AI 眼鏡會分成兩類:壹類是帶小型鏡片的顯示眼鏡,另壹類是音頻眼鏡。顯示眼鏡去年已在 I/O 展示,今年首批開發者已經開始創建顯示體驗,可信測試者計劃將在今年晚些時候擴大。
更早上市的是音頻眼鏡。
首批音頻眼鏡將在今年秋季推出,由叁星參與硬件和體驗構建,Warby Parker 與 Gentle Monster 負責眼鏡設計。這些眼鏡連接手機,支持 Android 和 iOS。Gemini 的回答通過耳機私密播放,而不是顯示在鏡片上。
發布會上,演示者可以通過眼鏡讓 Gemini 導航到上周和朋友見面的地方,中途加入咖啡店;也可以讓 Gemini 打開 DoorDash 自動下單咖啡,等待用戶確認;
還可以讓它總結靜音消息,並把家庭晚餐寫入日歷。眼鏡還可以與手表配合,讓用戶拍攝現場照片,並用 Nano Banana 生成卡通圖像,再在手表上預覽。
發布會最後,Gemini 的使用場景也延伸到了網絡安全場景。
Google 介紹了 CodeMender。它是壹個代碼安全 Agent,能夠自動尋找和修復關鍵軟件漏洞。Google 將邀請壹批專家測試 CodeMender API,之後會更廣泛推出。
整場發布會看下來,信息量大到讓人有些缺氧。只是當這些 AI 功能真正開放給幾千萬、幾億人使用時,壹個最現實的算賬問題就直接擺在了面前:這筆龐大的算力開銷,Google 要怎麼掙回來?
過去贰拾多年,Google 代表的是壹種典型的免費互聯網模式。用戶用注意力和數據換服務,Google 用廣告和分發賺錢。這套模式讓 Google 成為互聯網時代最強的基礎設施公司。
但大模型推理的成本,和查詢壹次搜索結果完全不在壹個量級。
長上下文記憶、多模態生成、跨應用 Agent、企業級自動化,這些能力背後都是持續運行的算力消耗。AI 越深入,Google 越難繼續用「免費功能升級」的方式來消化成本。
這就是為什麼整場發布會下來, Google I/O 看似講的是體驗升級,背後指向的卻是訂閱、企業合同、算力賬單和長期服務費。
免費入口當然不會消失,因為那仍然是 Google 獲取用戶、數據和生態位置的基礎。但在這些入口之上,Google 正在疊加壹個新的智能服務層:更強的模型、更長的記憶、更深的系統權限、更復雜的任務執行,以及更穩定的企業級服務。
換言之,Google 正在從免費互聯網服務公司,進壹步變成 AI 訂閱基礎設施公司。
只是,問題也隨之而來,用戶願意為搜索付費嗎?通常情況下,不會。
可是,如果這是壹個能替你全天候處理郵件、統籌任務、分析報表、接管智能家居,甚至還能幫你寫代碼開發 App 的「超級全能助理」呢?你願意為它每月掏出幾拾上百美元嗎?
這,正是今年 Google I/O 迫切想要驗證的核心商業命題。而環顧如今狂熱的市場,答案似乎早已不言而喻。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見