OpenAI新模型: 有情绪的AI出现了

日期: 2024-05-14 | 来源: AI未来指北 | 有0人参与评论 | 字体: 小中大
5月14日凌晨，OpenAI终于发布了SamAltman提前造势的“Magic（魔法）”，主要包括三个重点发布，ChatGPT新UI、桌面版GPT、以及最重要的，新的多模态模型GPT-4o。

当模型变得越来越复杂，新的ChatGPT用户界面变得更加简洁，交互体验实际上变得更加自然和简单。

图注：ChatGPT新UI

桌面版GPT实时在线，能随时帮你解决写代码、读图表等任务，且从演示视频看上去，桌面版GPT可以直接通过视觉等方式“读懂”你的任务，这大大提高了端侧任务处理的想象力。

最重磅的是新的模型GPT-4o。根据OpenAI的官网解释，"o"代表“全知”，是朝着更自然的人类与计算机交互迈出的一步。

总结下来，新模型GPT-4o有三大“魔法”：

①多模态：接受文本、音频、图像作为组合输入，并生成任何文本、音频和图像的组合输出。同时，在多模态理解能力中，最让人感到惊奇的是，它能够识别人类的感情，并根据感情做出“有感情的反应”。

②几乎无延迟：它对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。

③可在电脑桌面运行，随时拥有一个AI队友，能随时帮你处理写代码、看图表等任务。

看完这三大特点，真的是直接感叹：“贾维斯”上线！“HER”闯进生活。从今天起，OpenAI给了你一个没延迟，有感情，可以随时看着你，无处不在的AI助理。还免费。本文的后半部分，将详细介绍GPT-4o解锁的新能力。

一、概览：GPT-4o是一个端到端的新模型

GPT-4o在英文文本和代码上与GPT-4Turbo的性能相匹配，在非英文文本上有了显着提升，同时在API上速度更快，成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其更好。

根据OpenAI发布在官网的最新博客文章显示，在GPT-4o之前，我们使用语音模式与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是由三个独立的模型组成的流水线：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源，GPT-4，丢失了很多信息，它不能直接观察语调、多个说话者或背景噪音，也不能输出笑声、歌唱或表达情感。

GPT-4o，是单独训练的新模型，可以端到端地处理文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。

GPT-4o并不是第一个端到端多模态模型。早在去年十二月，谷歌就已经发布了他们的Gemini模型。后续业界也一直判断OpenAI也会遵从大一统模型的模式，最终开发出端到端的多模态模式。

四个月过去了，OpenAI的大一统模型总算闪亮登场。还比谷歌的多了语音这一模态。

更重要的是，虽然大一统模型是谷歌先发，但OpenAI今天展示了一个更“真”的多模态模型到底应该达到什么水平。

二、新产品能力——魔法背后的魔法

1、魔法的基础：一体化多模态的多模态模型。传统文本、代码等推理能力没有质的提升，但音频视觉等能力达到新标准。

作为一个一体化的多模态模型，GPT-4o在传统基准测试中,文本推理和编程能力上达到GPT-4Turbo水平,而在多语言、语音识别、语音翻译、视觉理解等方面创下新纪录。多模态能力的平均分高，是这个模型“魔法”能力的基础。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论