-
日期: 2024-05-14 | 来源: AI未来指北 | 有0人参与评论 | 字体: 小 中 大
这就是OpenAI想做到的全知:一个陌生人看到你时所能感受到的几乎一切,它全部能接收到。因此它也有了真正能和你做与你私人相关的,符合场景的操作。
很多人会觉得这都是旧有的功能,因为不论是Gemini还是过去的GPT-4V,我们都可以截图给他们看当下的环境,他们也能识别照片中的信息并给你回应。语音,过去也有基于Whisper的识别系统,足以让上个版本的GPT4能回应你。
但这次GPT-4o带来的是对易用性体验的颠覆。
它能对实时环境产生理解,随时对已经变化的环境做反应,甚至还能借助记忆能力联系起这些变化。这比起过去不停截图给一个软件才能顺利对话的交互模式易用太多了。
除此之外,在演示中让人印象最深刻的是GPT-4o的快如闪电。与前代动辄2.6秒的反应速度相比,GPT-4o能毫无延迟的反馈对话。反应速度对用户体验的影响之大,想必产品经理们都熟记在心。
这就是得益于GPT-4o为多模态统一编码,并且是目前最真·多模态。因此我们不再需要语音转文本-问答-文本转语音(语音~文本-问答-文本~语音)这个传统的流程管线了。在GPT-4o中,可以直接做到语音-问答-语音,一步到位,大大缩短了反应时间。
图注:JimFan演示的过去的三步走模式
同时,易用性还意味着更符合人类交互的习惯:GPT-4o在对话时可以随时被打断,且能接续的语音对话模式。

图注:Jim Fan的赛前预测,满分
以上这三种能力的组合,让这个产品真正达到了用户用起来不觉得麻烦的水平。从今天起,AI终于成为了一个真正的常用陪伴型助手,而非只是我们需要求助时不情不愿调用的效率工具了。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见