-
日期: 2024-03-13 | 來源: 量子位 | 有0人參與評論 | 專欄: 加州 | 字體: 小 中 大
壹覺醒來,程序員怕是真要失業了。
首個AI軟件工程師壹亮相,直接引爆整個科技圈。只需壹句指令,它可端到端地處理整個開發項目。
在SWE-bench基准測試中,它無需人類幫助,可解決13.86%的問題。
相比之下,GPT-4只能處理1.74%的問題,且都需要人類提示告知處理哪些文件。
可以說,它遠遠超過了此前所有AI大模型。
從零構建網站、自主查找並修復Bug、甚至是訓練和微調自己的AI模型通通都不在話下~也可為壹些成熟的代碼庫做貢獻。
就是壹些不熟悉的技術,給它看壹篇博客文章。它也能立馬搞定。
比如用ControlNet,生成帶有隱藏文字的圖像,Devin就是壹點就通~
據介紹,它已經成功通過壹家AI公司面試,並且在Upwork上完成了實際工作。
而這背後的公司Cognition,雖然是初創公司,但小而精悍。
在招人信息中明晃晃寫著:我們有10個IOI金牌。
讓同行們直呼:哦莫,瘋了吧~
目前Devin尚未公測,不過已經有少部分人拿到了資格,開始實測了壹波……
壹、首個AI軟件工程師亮相
Devin被介紹為世界首個完全自主的AI軟件工程師。
它在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的復雜軟件工程任務。
在這之中,進行到任何壹步它都可以回調所有相關的上下文信息,保證整體邏輯性,並方便隨時校正錯誤。
既然是壹個端到端AI,軟件開發人員常用的工具,比如shell、代碼編輯器和瀏覽器等等,Devin也都配備(沙盒計算環境中),主打壹個全方位服務。
最終的Devin,讓人類只需要發號施令,其他什麼也不用做。
具體來看,其主要能力有以下六個:
1、端到端構建和部署程序
Devin可以幫我們解決的不只有是代碼,還包括與之相關的整個工作流。
比如,當我們需要設計壹個網頁游戲時,Devin不僅能生成網頁,還能直接完成服務端的部署,然後直接發布上線,省去了中間的人工操作。
只需要告訴Devin,我們想做壹個個人網站,裡面運行壹個Devin定制版的生命游戲。
然後Devin表示自己會先搭建網站的基本架構,並詢問了有沒有更具體的需求。
在明確要求之後,Devin給出了這樣壹份任務清單:
·創建React應用,安裝UI模塊等依賴
·用React和UI模組搭建前端環境
·部署服務器並確保其在私有IP下運行
·通過CDN向首頁添加p5.js庫
·在React中部署並驗證游戲的功能和資源是否正確配置
接著,Devin就會按照自己設計的這個清單開始編寫代碼,然後部署服務……
△Devin部署後端服務器的過程
最終完成全部工作之後,壹個即點即玩的游戲鏈接就呈現在了我們面前。
2、自主查找並修復bug
不僅能壹氣呵成完成開發部署,Devin的debug能力也是壹流。
開發者給Devin壹個GitHub鏈接,讓它先熟悉項目情況,然後壹會兒要准備數據進行測試。
接著,Devin就會按部就班地編寫測試用的程序並准備好有關數據,然後運行。
結果,在開發者已經發布的完整項目之中,Devin還真的找到了連開發者自己都沒有發現的漏洞。
發現漏洞之後,Devin會回溯報錯出現的位置及對應的數據,然後分析原因並給出解決方案。
最終經過調試,程序的bug被成功修復,完美通過了測試。
3、訓練和微調自己的AI模型
除了這些壹般的程序或項目,作為壹個全能型AI助手,Devin還有能力幫助人類訓練和微調其他AI。
對於壹些常見的模型(比如示例中的Llama),用戶只需要在promot中提及模型的名稱,Devin就直接知道要訓練哪個模型。
而在這個示例中,微調的具體方法(QLoRA)是以GitHub鏈接的形式輸入給Devin的。
接到指令後,Devin還是像處理平常的程序壹樣邊規劃邊執行,所需環境和依賴,還有模型本體,都會自動下載安裝。
這些准備都完成之後,微調工作就會有條不紊地進行,而且其中的狀態可以實時監控。
4、修復開源庫
Devin的能力不僅在於開發者自己本身的項目,開源社區裡的,它也能hold住。
比如我們只需要把GitHub項目的issue鏈接丟給Devin,它就能立即完成所需的所有配置,並自動收集上下文信息,然後開始解決問題。
當然,開源項目的功能請求(feature request)也沒問題,和修問題的流程壹樣,自己搞好配置,收集上下文,然後就開始編碼。
5、成熟的生產庫也能做貢獻
還沒完,業已成熟的生產庫,Devin也能給咱秀壹把。
官方介紹,sympy Python代數系統中有壹個對數計算的錯誤,就被Devin順利解決:
配置環境、重現bug,自行編碼並修復、測試,再次壹氣呵成。
△就是這個庫
6、不熟的技術,現學現賣
最後,遇到自己不會的技能,Devin可以直接現學,並迅速付諸應用。
把你新刷到的技術文章鏈接直接丟給Devin:
Hi Devin!我在這個博客文章中(附網址)發現,可以生成帶有隱藏文本的圖像。文中提到了壹個腳本,你能配置好它,然後為我真的生成壹些圖片嗎?
Ps. 就是利用ControlNet來做這件事。
Devin接到請求後,首先詢問了更為詳細的需求,然後開始閱讀博客文章,並像平常壹樣規劃出了行動方案。
有了詳細的行動方案後,它立刻就在數分鍾內進行代碼編寫和調試。
同樣的,在這裡遇到bug也不用驚慌,Devin同樣有能力直接進行修復。
完成工具的搭建後,Devin也沒有勞煩人類自行配置使用,而是壹氣呵成,最終生成了咱們要的帶隱藏文字的圖像:
可以說表現相當令人驚艷。
而在具體測試中,Devin取得的成績同樣亮眼。
在評估Devin的表現時,團隊沒有使用常見的HumanEval,而是用了更具挑戰性的SWE-bench。
這個數據集是由GitHub中的實際問題組成的,Devin不借助任何輔助,就取得了13.86%的最高解決率。
而同樣在無輔助的條件下,GPT-4的問題解決率為零,此前的最佳水平是1.96%,加入輔助也才4.8%。
贰、公司人均壹塊IOI金牌
如此炸天的新成果,背後卻是壹家名不見經傳的初創公司。
但這種“名不見經傳”背後,實際是壹個10人員工的編程天才團隊,IOI金牌就有10塊…人均壹塊。
Devin背後公司名為Cognition AI,總部設在紐約和舊金山,定位是壹家專注於推理的應用AI實驗室。
此前這家公司壹直秘密工作,於兩個月前正式注冊成立。
目前該團隊規模僅有10人,但共攬獲了10枚IOI金牌,創始成員均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等從事AI前沿工作。
據悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan創立。
聯合創始人兼CEO Scott Wu,根據我們目前搜到的資料,Scott Wu曾就讀於哈佛大學,曾是Lunchclub的聯合創始人兼CTO。
曾連續叁年攬獲IOI金牌:
聯合創始人兼CTO Steven Hao,畢業於MIT計算機專業,之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。
也曾是IOI金牌得主:
聯合創始人兼CPO Walden,曾於哈佛大學攻讀計算機科學和經濟學相關專業,還曾從事MIT PRIMES密碼學和機器學習方向的計算機科學研究,還是沃頓商學院高中投資大賽北美地區決賽入圍者。
2020年第32屆IOI金牌得主:
據X推文的轉發順藤摸瓜,還有壹位創始成員被扒了出來。
Neal Wu,同樣有哈佛大學教育經歷,曾在tryramp、GoogleBrain工作過。
整個團隊長期目標,意在通過解決推理問題,在廣泛的學科領域解鎖新的可能性,而“代碼僅僅是開始”。
不過對於Devin,目前他們尚未透露是如何實現這壹壯舉的,包括到底是使用自己的專有模型還是第叁方模型。
此外,Cognition AI目前已獲得硅谷投資大佬彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。
眾所周知,彼得蒂爾以挖掘這種極具突破性的創新項目著稱,而且哈佛背景的創業者更是和他淵源緊密。
上壹個他早期投資中類似背景,最知名的是扎克伯格和Facebook。
叁、“自動化軟件工程與自動駕駛類似”
Devin壹亮相,讓不少工程師大驚失色:軟件工程師…要失業了???


不過也有人依然樂觀:終於有AI讓我們從繁重的編程任務中解脫出來。
前特斯拉AI總監卡帕西倒是給了壹顆定心丸。
自動化軟件工程,目前看起來與自動化駕駛類似。
具體體現在發展進程上:首先人類手動編寫代碼,然後 GitHub Copilot 自動完成幾行,再之後ChatGPT 編寫代碼塊,現在就是Devin的出現。
接下來,他認為自動化軟件工程會演變成為協調開發人員需要串聯的許多工具壹起編寫代碼:終端、瀏覽器、代碼編輯器等。以及人類負責監督,逐漸轉向更高級別工作。
結合卡帕西的經歷和對自動駕駛的理解,他表達的更多是壹種漸進式推進,即會有壹段時間的人機共駕,然後在數據和迭代反饋後,才能實現完全無人駕駛。
自動化軟件也類似,先低代碼,然後零代碼,最後完全不需要人寫代碼。
Perplexity AI CEO給出了個高度的肯定:這應該是任何Agent的第壹個演示。
它似乎跨越了人類水平的門檻並且可靠地工作。它還告訴我們通過結合 LLM 和樹搜索算法可以實現什麼
德撲AI之父、前FAIR(Meta)研究科學家、現已加入OpenAI的Noam Brown轉發開麥:
2024年是AI激動人心的壹年。
所以,程序員們做好被解放的准備了嗎?(Doge)- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見