-
日期: 2026-05-19 | 来源: 腾讯科技 | 有0人参与评论 | 专栏: 谷歌 | 字体: 小 中 大
伍德沃德描述道:“当你使用它时,几乎感觉就像你把东西甩到身后,Spark会接住它并完成工作。”
关于Spark具体能做什么,伍德沃德透露了测试人员的几个使用场景:策划派对、跟踪学校日程、监控收件箱中的问题。
安全方面,Gemini Spark在执行高风险操作前需要用户明确批准。针对支付行为,谷歌推出了智能体支付协议,允许设置严格的使用范围:批准哪些品牌、设置消费上限、限定哪些商家。谷歌计划今年夏天扩展连接能力,让Gemini Spark通过Chrome浏览器操作更多第三方应用和网站。
一批受信任的测试者本周拿到了访问权限。下周,Gemini Spark将向美国Google AI Ultra订阅用户推出测试版。AI Ultra是谷歌同步推出的新订阅套餐,月费100美元,面向开发者、技术负责人和高级创作者,提供对Antigravity的优先访问权、更高的使用限制以及捆绑的Omni Flash访问权。
围绕Gemini Spark的是谷歌一系列面向普通消费者的布局。
先看用户规模。Gemini应用月活用户已从一年前的4亿增长到9亿多,搜索中的“AI模式”上线仅一年月活就突破10亿,且每季度查询量翻倍增长。
与此同时,谷歌还推出了两项新服务:一是全天候监控网络的信息智能体,可以主动跟踪你关注的价格、股票或话题变化并及时提醒;二是基于谷歌钱包的AI通用购物车,支持跨不同电商网站统一管理和结算,省去分别登录、分别付款的麻烦。
05 Gemini Omni:一个新物种
和Gemini 3.5 Flash、Gemini Spark一起亮相的,还有Gemini Omni——谷歌第一个真正的原生多模态模型。
卡武克库奥卢特意把它和现有的视频生成模型Veo做了区分:“Veo是一个文本到视频的模型,而Gemini Omni是一个真正的多模态输入、多模态输出模型。”Gemini Omni可以接受文本、图像、音频和视频的任意组合作为输入,并在同样的模态上生成输出。所有处理都在一个统一的模型里完成,而不是拼凑多个系统。
用户通过对话就能一步步编辑和生成视频,每一条指令都基于上一条,视频随着对话的推进连贯变化。谷歌高管的演示展示了几个具体的编辑场景:
用户上传一段户外骑行视频,输入指令“把背景换成雪地”,Gemini Omni在保持骑行者和自行车运动轨迹不变的情况下,把整个环境换掉了。接着用户说“改成从侧面跟拍的角度”,画面的摄像机视角就跟着调整了。最后用户要求“加上一段旁白解释这条路线”,模型便生成了配乐和解说。整个过程在同一个对话线程里完成,不需要导出文件、切换工具或者重新上传。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见