-
日期: 2024-06-03 | 來源: 智東西 | 有0人參與評論 | 字體: 小 中 大
目前,Aljadery的推特賬號顯示“只有獲得批准的關注者才能看到”。
03.首個基於Llama-3構建的多模態大模型
此前,Garg在介紹Llama3-V的文章中提到,Llama3-V是首個基於Llama-3構建的多模態大模型,訓練費用不到500美元。並且與多模態大模型Llava相比,Llama3-V性能提升了10-20%。
除了MMMU之外,Llama3-V在所有指標上的表現都與大小為其100倍的閉源模型非常相近。
他們所做的就是讓Llama 3能理解視覺信息。Llama3-V采用SigLIP模型獲取輸入圖像並將其嵌入到壹系列塊嵌入中。然後,這些嵌入通過投影塊與文本標記對齊,投影塊應用兩個自注意力塊將文本和視覺嵌入放在同壹平面上。最後,投影塊中的視覺標記就被添加到文本標記前面,並將聯合表示傳遞給Llama 3。
04.結語:Llama3-V套殼實錘或損害開源社區健康發展
不論從網友的質疑還是Llama3-V作者的回應來看,該模型套殼MiniCPM-Llama3-V2.5已經基本實錘,高度相似的代碼以及部分基於面壁智能內部未公開訓練數據訓練的功能,都證明這兩大模型的相似性。
目前來看,對於大模型“套殼”沒有明確的界定,但開源大模型以及開源社區的構建本意是促進技術的共享和交流,加速AI的發展,但如果以這種直接“套殼”、更改變量的形式使用,或許會與這壹發展願景背道而馳,損害開源社區的健康發展。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見