-
日期: 2025-03-14 | 來源: 探索AGI | 有0人參與評論 | 專欄: 谷歌 | 字體: 小 中 大
Gemini是個水桶型模型,可能在數學,推理,創意上都比不上最好的模型。但是它每壹項的能力都不差,甚至多模態理解處於全球領先行列,速度也是嘎嘎快。
剛剛,Google宣布在Google AI Studio和Gemini API上開放Gemini 2.0 Flash的原生圖像生成功能,供開發者測試和實驗。也就是不止輸入可以圖文,現在模型可以無縫的融合圖文同時輸出了!
不僅能理解文字,還能直接根據描述生成令人驚艷的高質量圖片。主要功能包括:文本+圖像生成、對話式圖像編輯、真實感圖片創作以及高質量文本渲染。
它不僅能理解文字,還能直接根據描述生成高質量的圖片。支持 文本+圖像生成、對話式圖像編輯、真實感圖片創作、高質量文本渲染。
多模態能力:可以同時理解文字、圖像,並在贰者之間建立聯系。
智能推理:能夠結合現實世界的知識,生成准確的視覺內容。
自然語言交互:支持用戶通過對話方式調整修改圖片,類似 AI 畫師助手。
接下來是試玩環節~
輸入壹個描述:“以“壹只可愛的豬在天上飛”為主題,生成6副連續插畫。”
Gemini 2.0 Flash會根據文本生成壹系列插圖,讓角色和場景在不同畫面中保持壹致性。從結果可以看到,它能在壹次內容輸出中包含多張圖,且角色形象始終如壹。
進壹步,還可以要求它修改繪畫風格(如卡通風、寫實風等)。
這樣想象空間就很大了,如之前很多爆款的針對小孩的插畫故事視頻,古詩插畫視頻,門檻制作進壹步降低了。
除此之外,我們還可以,用語言完成PS,並且這是有多輪交互支持上下文的!
在舉個例子: “讓AI生成壹個藍色的房子”,然後進行交互修改布局,顏色:
相比壹般的AI畫圖工具,Gemini 2.0 Flash能理解更多現實世界的細節和文化背景。
因為Gemini本身是經過了大量語言模型訓練的,所以世界知識豐富,利用世界知識和增強推理來創建正確的圖像。這使得它非常適合創建逼真的詳細圖像——比如“我想做壹道東北大亂燉,請告訴我要怎麼做,每壹步驟請配上圖片”。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見