-
日期: 2024-05-14 | 來源: 愛范兒 | 有0人參與評論 | 字體: 小 中 大
今天凌晨,壹場 26 分鍾的發布會,將又壹次大大改變 AI 行業和我們未來的生活,也會讓無數 AI 初創公司焦頭爛額。
這真不是標題黨,因為這是 OpenAI 的發布會。
剛剛,OpenAI 正式發布了 GPT-4o,其中的“o”代表“omni”(即全面、全能的意思),這個模型同時具備文本、圖片、視頻和語音方面的能力,這甚至就是 GPT-5 的壹個未完成版。
更重要的是,這個 GPT-4 級別的模型,將向所有用戶免費提供,並將在未來幾周內向 ChatGPT Plus 推出。
我們先給大家壹次性總結這場發布會的亮點,更多功能解析請接著往下看。
發布會要點
新的 GPT-4o 模型:打通任何文本、音頻和圖像的輸入,相互之間可以直接生成,無需中間轉換
GPT-4o 語音延遲大幅降低,能在 232 毫秒內回應音頻輸入,平均為 320 毫秒,這與對話中人類的響應時間相似。
GPT-4 向所有用戶免費開放
GPT-4o API,比 GPT4-turbo 快 2 倍,價格便宜 50%
驚艷的實時語音助手演示:對話更像人、能實時翻譯,識別表情,可以通過攝像頭識別畫面寫代碼分析圖表
ChatGPT 新 UI,更簡潔
壹個新的 ChatGPT 桌面應用程序,適用於 macOS,Windows 版本今年晚些時候推出
這些功能早在預熱階段就被 Altman 形容為“感覺像魔法”。既然全世界 AI 模型都在“趕超 GPT-4”,那 OpenAI 也要從武器庫掏出點真家伙。
免費可用的 GPT-4o 來了,但這不是它最大的亮點
其實在發布會前壹天,我們發現 OpenAI 已經悄悄將 GPT-4 的描述從“最先進的模型”,修改為“先進的”。
這就是為了迎接 GPT-4o 的到來。GPT-4o 的強大在於,可以接受任何文本、音頻和圖像的組合作為輸入,並直接生成上述這幾種媒介輸出。
這意味著人機交互將更接近人與人的自然交流。
GPT-4o 可以在 232 毫秒內回應音頻輸入,平均為 320 毫秒,這接近於人類對話的反應時間。此前使用語音模式與 ChatGPT 進行交流,平均延遲為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。
它在英文和代碼文本上與 GPT-4 Turbo 的性能相匹敵,在非英語語言文本上有顯著改進,同時在 API 上更快速且價格便宜 50%。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見