-
日期: 2025-03-08 | 來源: 鹽財經 | 有0人參與評論 | 字體: 小 中 大
近日,自稱“全球第壹款通用AI Agent產品”的Manus壹夜之間爆火。
其宣稱性能“吊打”Open AI同款,邀請碼被炒至天價,甚至能賣到9萬、10萬元壹個。
Manus火得突如其來,但不算莫名其妙。
火的原因有兩點,壹是多家造勢,風很大,但實測的人少,神秘感強,疊加“本土團隊”光環,又是壹個後來居上的案例;贰是大模型的好,大家都見識了,但壹直停留在聊天上。現在急需趁手的聚合式工具,把腦子裡的想法變變現。
忽然,說曹操曹操就到,正中下懷。
聚合式工具也沒那麼玄妙,相當於“高德打車”吧。
Manus是什麼?行內叫智能體(Agent),通俗點可以叫“工具人”。這個工具人就是以大模型為“大腦”,自己“動手”使用工具來完成任務。Manus英文就是“手”的意思。
有代表性的工具人當屬OpenAI的深度研究(Deep Research)和Anthropic的計算機應用(Computer Use)。以實測結果來看,Manus達不到宣傳片裡的效果:幻覺較多,任務基本以失敗告終。
在贰手平台上,Manus邀請碼最貴已被炒至10萬元級別
產品官網顯示,在GAIA基准測試(評估通用AI助手解決真實世界問題的能力)中,Manus在所有叁個難度級別上,都取得了新的最先進(SOTA)表現關鍵,是不是“工具人”,要看它是不是真的能自行決定怎麼完成任務、挑什麼工具,而不是靠編好的代碼。
Manus目前未有任何信息能證明自己是真正的智能體——沒有人為設計的工作流程。因此,只能說它在宣傳裡呈現出“智能體”或通用人工智能(AGI)的樣子,並圍繞這壹概念作文章。
而Manus也絕非壹無是處。作為壹款應用,界面簡潔友好;大腦(思考)、手(操作)、交付的層次非常清晰,組合起來也是相對合格的當代“牛馬”,還是能幫你提高壹點生產力。
下文將舉例說明Manus如何完成工作任務、優勢和局限以及技術邏輯是什麼。省流版:別花好幾萬買什麼邀請碼,壹個“毛坯房”不值得。
使用工具是大學問
“工具人”絕不能純聊天,不幹活兒,專業工具人都是壹邊聊壹邊幹:左面對話框,右面操作台。Manus和Claude的界面都是如此。
根據“我有壹個朋友”的實測,給Manus由淺入深地提了幾個獨立的要求,比如寫小說,給蘋果股價建模,寫壹個游戲等等,結果不太樂觀。
整個流程是這樣的:用戶在對話框裡發布指令,Manus在操作台壹頓輸出,用戶可以清晰地看到Manus使用工具的過程,並接收它的操作結果。
Manus的操作流程展示
收到指令後,Manus是這樣使用工具的:
首先,建立壹個總文件夾寫明“大目標”,再建立多個清單式的子文件夾,將任務分解,最後逐壹完成子文件夾的“小目標”。完成小目標時,它可能在瀏覽器壹通搜索,也可能寫壹段代碼。
也就是說,Manus主要工具就叁種,瀏覽器工具(Agent),計算機語言Python和壹部分命令行。
其次,利用超文本標記語言HTML來輸出“結果”。
也就是說,Manus用網頁呈現所有的結果。
有人問,它不是做了10頁PPT給我了嗎?這也是Manus“聰明”的地方,其實它沒有PPT工具,為了你的PPT,它用前端工具寫了壹大堆頁面,通過命令行把前端頁面打包成壹個壓縮包,下載下來是壹堆前端網站,每個前端網站就是壹頁PPT——雖然甲方很過分,但乙方還是出色地完成了任務。
兩個缺陷讓Manus不好用
在具體測試Manus的過程中,有兩個問題明顯暴露。
壹是瀏覽器工具的局限。
遇到反爬蟲網站或需要人機驗證的網站,它根本無法讀取數據。比如,你想要在多個購物網站比價壹款手機,進不去的網站它只能作罷,最後給出的是在搜索頁標題裡找出來的價格的比較。總之,它給出的結果非常粗糙,根本達不到你想要的結果。
這也是瀏覽器工具的通病。Open AI給出過統計數據,其瀏覽器Agent在數據集上只能完成58.1%的任務,而人類能完成78.2%,差距是巨大的。
但是,Open AI的瀏覽器工具能力還是不差的,能幫人訂餐廳,買機票。而Manus的瀏覽器工具只能打開頁面,下滑,極少數時候點進某個網頁。因此,Manus應該沒有訓練自己的瀏覽器Agent,僅能做壹些初步的簡單工作。
Manus官方展示的買房案例
而且,Manus選擇工具也有局限。它有時非常豪爽地用Next.js寫代碼,這是壹個全棧項目,前後端都能用的那種。但是Manus又沒有部署後端的能力,各種報錯之後陷入“深深的思索”。
贰是幻覺嚴重。
比如給蘋果公司做財務估值,Manus這次沒有利用瀏覽器搜索,而是寫了壹個Python腳本,在腳本裡調用“雅虎金融”的接口來讀取公司相關數據。
然而,在實際過程中,它並沒有提供真實數據,而是撰寫了壹堆模擬數據——也就是自己編的數據。反查它的操作流程,確實沒有調用過任何API,也沒有任何搜索過程,幻覺是比較嚴重的。
它最後給出的報告,當然也是完全不能用的。
Manus可以打開Python進行分析,並生成HTML網頁文件
在處理任務時,Manus普遍將大模型和Python腳本混在壹起操作,上下文極長,更容易產生錯誤。用戶如果不留心或缺乏分辨能力,也更容易被“蒙騙”。
模型即產品
Manus AI創始人肖弘在接受采訪時,提到了理解智能體的核心:虛擬機。
其實,智能體應該是壹個“DeepSeek”+“我”的東西。這裡的“我”是執行角色。
在沒有智能體之前,我布置任務,大模型思考目標、分解步驟,“我”來執行並拿到結果。有了智能體之後,我布置任務,智能體直接給我結果。
就像我需要10頁PPT,DeepSeek給我寫好每壹頁內容,“我”復制到PPT裡。現在,我需要10頁PPT,智能體就給了我10頁PPT。
Manus團隊北京辦公園區入口 新京報記者 浦峰/攝
本來需要我使用電腦(做PPT),現在是大模型在使用我的電腦(做PPT)。
這就是智能體的本質。
如果用的是軟件搭出來的硬件系統,那麼這個智能體就是大模型+虛擬機。
如果直接調用現實中的電腦,那麼這個智能體就是大模型+計算機。壹年前Claude就能拿用戶的電腦做網頁了。
這是因為現在大模型還較難真正接入物理世界,只能在“真假”計算機上下功夫。如果萬物互聯,“大模型+鍋碗瓢盆”可能直接把餐飲業幹倒閉了,當然倒閉的肯定也不只壹個行業了。這是後話。
智能體的背後,是“模型即產品”的思路。
正如Open AI的深度研究,Anthropic的計算機應用,都不再套用自家的通用模型,而是根據應用場景,訓練全新的強化模型,這個強化模型本身就是壹個好用的產品。
反過來看Manus,當然是沒有自家的大模型,也缺乏專門訓練的相關工具,但是聚合的思路和表現形式很成功,也將大模型“純文本工作”——寫代碼、寫文字的優勢,通過網頁交付清晰地展示了出來。
在訓練模型的邏輯上,Manus可能也並沒有實現Claude人、大模型、環境叁者即時反饋的簡潔模式,而依然遵循之前人、大模型、任務分解、工具使用、進程演化、目標達成等復雜結構。
Manus AI合伙人張濤在社交平台回應稱,“目前采取邀請碼機制,是因為此刻服務器容量確實有限”
在DeepSeek非常成功的今天,發展智能體是順應了形勢的需要、大眾的需求。各家AI公司都希望抓住這個機會來發力。搶占流量也是發力的壹部分。
對於普通消費者而言,最重要的還是多觀察,多了解,別急著掏錢。人工智能不會毀滅你的生活,但是焦慮會。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見