-
日期: 2025-03-12 | 來源: AIGC開放社區 | 有0人參與評論 | 專欄: 谷歌 | 字體: 小 中 大
昨晚,谷歌CEO Sundar Pichai宣布,開源最新多模態大模型Gemma-3,主打低成本高性能。
Gemma-3共有10億、40億、120億和270億肆種參數。但即便最大的270億參數,只需要壹張H100就能高效推理,同類模型要達到這個效果最少要提升10倍算力,也是目前最強小參數模型。
根據盲測LMSYS ChatbotArena數據顯示,Gemma-3僅次於DeepSeek的R1-671B,高於OpenAI的o3-mini,Llama3-405B等知名模型。
DeepSeek的R1是相當有排面,國內外發布高性能低成本模型時都得和它比較壹下。其實,前幾天阿裡也開源了壹個比肩R1,參數大降20倍的QwQ-32B模型。現在谷歌也要開始卷低成本模型了。
開源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma-3架構與技術亮點
在架構設計上,Gemma-3采用了與前兩代壹樣的通用解碼器Transformer架構,但進行了眾多創新和優化。
為了應對長上下文帶來的內存爆炸難題,Gemma-3采用了局部和全局自注意力層交錯的架構,每5個局部層之間插入1個全局層,局部層的跨度僅為1024個token。因為只有全局層負責處理長上下文,局部層僅關注1024個token的小跨度,從而降低了內存占用。
為了支持長上下文,Gemma-3模型將上下文長度擴展到了128Ktoken(10億參數模型為32K)。模型提高了全局自注意力層的RoPE基礎頻率,從10k提升到1M,而局部層頻率保持在10k。
同時,采用了類似位置插值的方法來擴展全局自注意力層的跨度,使模型在長上下文場景下能夠更好地捕捉信息提升性能。
多模態能力是Gemma-3的壹大技術亮點,能夠同時處理文本和圖像。還集成了定制版的SigLIP視覺編碼器,這是壹個基於VisionTransformer的編碼器,通過CLIP損失的變體進行訓練。
為了降低圖像處理的推理成本,Gemma-3采用了創新的圖像嵌入壓縮技術,將視覺嵌入壓縮為固定大小的256個向量,從而在不損失關鍵信息的前提下,顯著減少了計算資源的消耗。
Gemma-3還引入了Pan&Scan方法,允許模型靈活處理不同分辨率和寬高比的圖像。在實際應用中,Pan&Scan通過將圖像分割成多個固定大小的區域,並將這些區域調整到統壹的分辨率後輸入編碼器,從而避免了因圖像尺寸不壹致而導致的信息丟失或變形問題。這種靈活的圖像處理方式不僅提高了模型對圖像內容的理解能力,還使其在處理復雜圖像場景時表現得更加出色。
高效訓練過程
在預訓練階段,Gemma-3采用了與Gemma 2相似的方法並融入新的改進。為適應圖像和文本混合數據的訓練需求,模型使用了比Gemma 2更大的token預算。
270億參數的模型訓練使用14Ttoken,120億參數模型使用12T,40億參數模型使用4T,10億參數模型使用2T。
同時,增加了多語言數據,包括單語和並行數據,並借鑒特定策略處理語言表示不平衡的問題,以此提升模型的語言覆蓋范圍和多語言處理能力。所以,Gemma-3支持140種語言,其中35種語言開箱即用。
Gemma-3使用與Gemini2.0相同的SentencePiece分詞器,具備分割數字、保留空格和字節級編碼的特性,生成的詞匯表包含262k個條目,使得模型在處理非英語語言時更加平衡。
在訓練優化上,Gemma-3運用知識蒸餾技術。每個token采樣256個logits,按照教師概率進行加權,學生模型通過交叉熵損失來學習教師模型在這些樣本中的分布。在這個過程中,對於未采樣的logits,教師模型的目標分布被設為零概率並重新歸壹化,從而引導學生模型學習到更優的分布,提升模型的性能。
完成預訓練後,Gemma-3進入後訓練階段,該階段聚焦於提升模型的特定能力並整合新特性。後訓練采用了改進版的知識蒸餾技術,從大型指令微調教師模型中獲取知識,同時結合基於改進版BOND、WARM和WARP的強化學習微調階段。
通過多種獎勵函數來優化模型,這些獎勵函數旨在提升模型的幫助性、數學能力、編碼能力、推理能力、指令遵循能力和多語言能力,同時最小化模型產生有害輸出的可能性。獎勵來源包括從人類反饋數據訓練的加權平均獎勵模型、代碼執行反饋以及解決數學問題的真實獎勵等。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見