Google重磅更新,仿佛看到了AGI的影子

日期: 2025-03-14 | 來源: 探索AGI | 有0人參與評論 | 專欄: 谷歌 | 字體: 小中大
Gemini是個水桶型模型，可能在數學，推理，創意上都比不上最好的模型。但是它每壹項的能力都不差，甚至多模態理解處於全球領先行列，速度也是嘎嘎快。

剛剛，Google宣布在Google AI Studio和Gemini API上開放Gemini 2.0 Flash的原生圖像生成功能，供開發者測試和實驗。也就是不止輸入可以圖文，現在模型可以無縫的融合圖文同時輸出了！

不僅能理解文字，還能直接根據描述生成令人驚艷的高質量圖片。主要功能包括：文本+圖像生成、對話式圖像編輯、真實感圖片創作以及高質量文本渲染。

它不僅能理解文字，還能直接根據描述生成高質量的圖片。支持文本+圖像生成、對話式圖像編輯、真實感圖片創作、高質量文本渲染。

多模態能力：可以同時理解文字、圖像，並在贰者之間建立聯系。

智能推理：能夠結合現實世界的知識，生成准確的視覺內容。

自然語言交互：支持用戶通過對話方式調整修改圖片，類似 AI 畫師助手。

接下來是試玩環節~

輸入壹個描述：“以“壹只可愛的豬在天上飛”為主題，生成6副連續插畫。”

Gemini 2.0 Flash會根據文本生成壹系列插圖，讓角色和場景在不同畫面中保持壹致性。從結果可以看到，它能在壹次內容輸出中包含多張圖，且角色形象始終如壹。

進壹步，還可以要求它修改繪畫風格（如卡通風、寫實風等）。

這樣想象空間就很大了，如之前很多爆款的針對小孩的插畫故事視頻，古詩插畫視頻，門檻制作進壹步降低了。

除此之外，我們還可以，用語言完成PS，並且這是有多輪交互支持上下文的！

在舉個例子： “讓AI生成壹個藍色的房子”，然後進行交互修改布局，顏色：

相比壹般的AI畫圖工具，Gemini 2.0 Flash能理解更多現實世界的細節和文化背景。

因為Gemini本身是經過了大量語言模型訓練的，所以世界知識豐富，利用世界知識和增強推理來創建正確的圖像。這使得它非常適合創建逼真的詳細圖像——比如“我想做壹道東北大亂燉，請告訴我要怎麼做，每壹步驟請配上圖片”。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 下壹頁

在此頁中閱讀全文
更多谷歌的新聞

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞