-
日期: 2024-05-14 | 来源: AI未来指北 | 有0人参与评论 | 字体: 小 中 大
5月14日凌晨,OpenAI终于发布了SamAltman提前造势的“Magic(魔法)”,主要包括三个重点发布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模态模型GPT-4o。
当模型变得越来越复杂,新的ChatGPT用户界面变得更加简洁,交互体验实际上变得更加自然和简单。
图注:ChatGPT新UI
桌面版GPT实时在线,能随时帮你解决写代码、读图表等任务,且从演示视频看上去,桌面版GPT可以直接通过视觉等方式“读懂”你的任务,这大大提高了端侧任务处理的想象力。
最重磅的是新的模型GPT-4o。根据OpenAI的官网解释,"o"代表“全知”,是朝着更自然的人类与计算机交互迈出的一步。
总结下来,新模型GPT-4o有三大“魔法”:
①多模态:接受文本、音频、图像作为组合输入,并生成任何文本、音频和图像的组合输出。同时,在多模态理解能力中,最让人感到惊奇的是,它能够识别人类的感情,并根据感情做出“有感情的反应”。
②几乎无延迟:它对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。
③可在电脑桌面运行,随时拥有一个AI队友,能随时帮你处理写代码、看图表等任务。
看完这三大特点,真的是直接感叹:“贾维斯”上线!“HER”闯进生活。从今天起,OpenAI给了你一个没延迟,有感情,可以随时看着你,无处不在的AI助理。还免费。本文的后半部分,将详细介绍GPT-4o解锁的新能力。
一、概览:GPT-4o是一个端到端的新模型
GPT-4o在英文文本和代码上与GPT-4Turbo的性能相匹配,在非英文文本上有了显着提升,同时在API上速度更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其更好。
根据OpenAI发布在官网的最新博客文章显示,在GPT-4o之前,我们使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源,GPT-4,丢失了很多信息,它不能直接观察语调、多个说话者或背景噪音,也不能输出笑声、歌唱或表达情感。
GPT-4o,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。
GPT-4o并不是第一个端到端多模态模型。早在去年十二月,谷歌就已经发布了他们的Gemini模型。后续业界也一直判断OpenAI也会遵从大一统模型的模式,最终开发出端到端的多模态模式。
四个月过去了,OpenAI的大一统模型总算闪亮登场。还比谷歌的多了语音这一模态。
更重要的是,虽然大一统模型是谷歌先发,但OpenAI今天展示了一个更“真”的多模态模型到底应该达到什么水平。
二、新产品能力——魔法背后的魔法
1、魔法的基础:一体化多模态的多模态模型。传统文本、代码等推理能力没有质的提升,但音频视觉等能力达到新标准。
作为一个一体化的多模态模型,GPT-4o在传统基准测试中,文本推理和编程能力上达到GPT-4Turbo水平,而在多语言、语音识别、语音翻译、视觉理解等方面创下新纪录。多模态能力的平均分高,是这个模型“魔法”能力的基础。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见