-
日期: 2025-10-23 | 來源: 半導體行業觀察 | 有0人參與評論 | 字體: 小 中 大
在2024 年 10 月推出隱身模式的時候,以色列芯片初創公司NextSilicon 表示,其即將推出的Maverick-2 是世界上第壹款智能計算加速器 (ICA:Intelligent Compute Accelerator),旨在滿足高性能計算人工智能 (HPC-AI) 應用的需求,是壹種“新穎且原創的計算架構”,可在降低功耗和成本的同時提高性能。
剛剛。經過八年時間、3.03 億美元的種子資金和叁輪風險投資的NextSilicon 終於推出了其 64 位數據流引擎的多個版本。與此同時,該公司還將推出壹款名為 Arbel 的自主研發 RISC-V 處理器,該芯片或將與 Maverick-2 搭配使用,打造諸如英偉達“Superchip”類型的產品。
從左到右:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP 和用於 OAM 插座的雙芯片 Maverick-2。
NextSilicon 成立於 2017 年,遠早於 GenAI 熱潮興起之時,但當時人們已經意識到 HPC 和 AI 計算引擎架構即將分道揚鑣——而且不利於專注於 64 位和 32 位浮點計算的 HPC 仿真和建模領域。即使沒有像 Cerebras Systems、Graphcore、Groq、Habana Labs、Nervana Systems、SambaNova Systems 等公司那樣直接進軍 AI 市場的初步計劃,NextSilicon 也已在叁輪融資中籌集了 2.026 億美元,其中 C 輪融資於 2021 年 6 月完成,融資金額為 1.2 億美元。
當時,NextSilicon 的估值約為 15 億美元,這筆資金和原型設計工作的完成意味著美國能源部可以了解 NextSilicon 的動向。彼時,桑迪亞國家實驗室還和 NextSilicon 合作設計和測試了 Maverick-1 數據流引擎,目前桑迪亞正在構建壹款名為“Spectra”的新型架構超級計算機,這是其 Vanguard-II 計劃的壹部分。據推測,這台超級計算機將使用今天發布的 Maverick-2 數據流引擎構建。
壹條全新的道路
在英偉達已經牢牢把持市場的當下,為什麼需要構建壹個新的芯片?“這主要是因為沒有專門用於高性能計算的加速器,”NextSilicon 創始人兼首席執行官 Elad Raz在去年接受媒體采訪的時候如此說。他指出,我們有數百家公司在為人工智能和機器學習做加速,大多數大型供應商都在轉向人工智能機器學習。你可以看到大型超級計算機對他們意味著什麼——他們只需構建壹個新的 GPU 集群,成本是原來的兩倍,功耗是原來的兩倍,但得到的卻是相同的 FP64 浮點運算能力。而NextSilicon 是壹家以高性能計算 (HPC) 為先的公司。”
他們打算走上的是壹條全新的道路。
眾所周知,盡管 GPU 和 CPU 助力了高性能計算 (HPC) 和人工智能 (AI) 領域的重大科學和社會突破,但它們正面臨著收益遞減的未來。NextSilicon 的創始人沒有繼續走老路,沒有投入巨資打造規模越來越大的人工智能工廠,配備越來越強大的 GPU(以及更先進的電源和冷卻系統),而是決定嘗試壹條不同的道路。
Elad Raz 指出,盡管擁有 80 年歷史的馮·諾依曼架構為我們提供了通用可編程的計算基礎,但它也帶來了巨大的開銷。他表示,98% 的芯片用於控制開銷任務,例如分支預測、亂序邏輯和指令處理,而只有 2% 的芯片用於執行應用程序核心的實際計算。
於是,Raz 和他的團隊構想了壹種名為“智能計算架構”(ICA)的新架構,該架構使芯片能夠自我重構,以適應不斷變化的工作負載,從而將開銷降至最低,並最大限度地提升計算能力,用於處理高要求的 AI 和 HPC 應用背後的數學運算。這便是 NextSilicon 專利“可重構硬件的運行時優化”的基礎,也是其 Maverick-2 處理器中使用的非馮·諾依曼數據流架構的指導原則。
“NextSilicon 的宗旨是使用軟件來加速你的應用程序,”Raz 解釋道。“其核心是壹種復雜的軟件算法,它能夠理解代碼中的重要內容並對其進行加速。相比之下,大多數 CPU 和 GPU 都是某種形式的處理器核心組。它們接收指令,並試圖構建復雜的流水線和矢量指令集,並采用亂序執行來減少延遲。我們認為這是錯誤的方法。更好的方法是應用帕累托原則,看看哪些 20% 的代碼占用了 80% 的運行時間。為什麼我們不對計算和內存應用 80/20 規則呢?為什麼我們不能自動識別重要的計算內核並嘗試只關注它們呢?”
Raz 隨後描述了其中的秘訣:“應用程序開始在主機上運行,然後我們會自動識別代碼中計算密集型的部分。我們保留計算圖的中間表示。我們不會將計算圖轉換為指令。你需要將其視為硬件的即時編譯器。我們保留程序的計算圖,並將其放置在數據流硬件上。我們從硬件獲取遙測數據,並以遞歸方式進行,因此我們始終在程序運行時優化計算和內存。”
“先進的軟件分析器就像壹個精准定位系統,持續監控您的應用程序。它會精准定位出那些占用性能的關鍵代碼片段,然後以納秒級的粒度重新配置硬件本身,構建針對該特定代碼優化的自定義數據流水線。這種非對稱執行模型能夠將卓越的效率精准地引導到能夠發揮最大效能的地方,同時讓您的大部分代碼保持正常運行。”Raz總結說。
Raz同時指出,英偉達的CUDA生態,也在將大家綁死在其GPU上,喪失了主動性和議價權。為此,NextSilicon 制定了不是迭代的願景,而是推動壹場革命。公司不會墨守成規,而是構建壹個全新的游戲規則,其中計算基礎設施:
1、運行壹切,毫不妥協:您現有的 CPU 代碼、復雜的 GPU 內核、要求苛刻的 HPC 任務以及尖端的 AI/ML 模型——無需修改代碼即可運行它們。
2、提供極致速度:體驗高達 10 倍的加速,功耗僅為原來的肆分之壹。如何實現?通過實時動態優化芯片,優化應用程序最熱門、資源最密集的代碼路徑。
3、消除供應商鎖定:告別專有領域特定語言 (DSL)。告別繁瑣的移植流程。告別框架維護的噩夢。您的代碼,您的語言,加速開發。
4、讓您的創新永不過時: ICA 能夠隨著工作負載的演變而不斷調整。您再也不會遇到“重寫瓶頸”。
總結而言,NextSilicon 的數據流架構建立在圖形結構之上。數據流處理器並非像馮·諾依曼那樣逐條處理指令,而是由壹系列計算單元(稱為 ALU)組成,這些單元以圖形結構互連。每個 ALU 處理特定類型的函數,例如乘法或邏輯運算。當輸入數據到達時,計算會自動觸發,結果將流向圖形中的下壹個單元。與串行數據處理相比,這種新方法具有很大的優勢,因為芯片不再需要處理數據提取、解碼或調度,這些是消耗計算周期的開銷任務。
在預告Maverick-2 壹年之後,NextSilicon終於帶來了這顆革命性芯片的詳細細節披露。
壹顆與眾不同的芯片
如下圖所示,Maverick-2 芯片有肆個計算區域,32 個 RISC-V E 核位於芯片左右兩側的外緣。據統計,計算塊網格由柒列組成,每列八個計算塊,芯片上總共有 224 個計算塊。每個計算塊有數百個 ALU,因此可以輕松獲得數萬到近拾萬個 ALU。對於這顆采用台積電 5 納米工藝制造,擁有540 億個晶體管的 Maverick-2 芯片來說,這樣的數據似乎並不合理。
但如果我們按照 NextSilicon 的圖表所示做壹個 14 x 14 的網格,那麼每個計算塊有 196 個 ALU;我們不知道壹個計算塊中有多少個浮點單元。每個 ALU 都有壹個 FPU 是有道理的。
作為對比,英偉達的“Ampere” A100 GPU 采用台積電 7 納米工藝制造,擁有 542 億個晶體管和 6912 個 FP32 CUDA 核心;而“Hopper” H100 和 H200 GPU 采用 4 納米工藝制造,擁有 800 億個晶體管和 18432 個 FP32 核心。Blackwell B200 插槽有兩個芯片組,每個芯片組包含 1040 億個晶體管,但每個芯片組僅包含 16896 個 CUDA 核心,采用 4 納米工藝制造。我們推測,ALU 比 CUDA 核心更小,並且 Maverick-2 芯片上的 ALU 數量比英偉達 GPU 上的 CUDA 核心數量更多。
歸根結底,ALU 數量不如壹組 mill 核心所能支持的線程數量重要。NextSilicon 聯合創始人兼架構副總裁、前 Mellanox(現為 Nvidia 網絡部門)軟件總監 Ilan Tayari 表示,典型的 CPU 有兩個線程,GPU 有 32 到 64 個線程,但壹個 mill 核心可以同時支持數百個線程。當然,mill 核心的大小和形狀會有所不同,但每個計算塊可能有數拾個 mill 核心,每個 Maverick-2 有 224 個計算塊,因此可以輕松支持數千個線程,所有線程都以 1.5 GHz 的頻率運行——大約相當於壹個慢速 CPU 或壹個普通 GPU 的速度——並且所有線程都連接到 HBM3E 顯存以獲得快速帶寬。
如上圖右側所示,這個主邏輯單元連接到壹條內存總線,該總線上有壹個保留站,用於在 ALU 調用數據之前臨時存儲數據。(NextSilicon 已獲得這種保留站、調度器和數據流計算塊組合的專利。)與常規 CPU 壹樣,Maverick ICA 也使用內存管理單元和表後備緩沖區,但這些單元的使用頻率很低,並且僅在 ALU 調用特定數據時才會使用。它不進行推測或預測,只進行數據提取。
Tayari 自豪地說:“NextSilicon 的數據流架構使我們能夠顯著降低與傳統 CPU 和 GPU 相比的開銷。我們調整了硅片的分配比例。我們將大部分資源用於實際計算,而不是控制開銷。我們獨特的方法消除了指令處理開銷。我們最大限度地減少了不必要的數據移動,從而使計算單元保持充分利用。我們並非試圖隱藏延遲,而是通過設計來容忍並最小化延遲。”
當應用程序為數據流引擎編譯時,它實際上被映射到數據流引擎上,形成壹個稱為 mill core(看起來像壹個圖)的東西。它看起來像程序在編譯之前的中間表示圖,並被放置在 ALU 上。NextSilicon 聯合創始人兼首席執行官 Elad Raz 表示,多個 mill core 可以像俄羅斯方塊壹樣放置在同壹個計算塊上,並且可以根據工作負載的需要,在幾納秒內加載和刪除 mill core。
據介紹,Maverick-2 提供單芯片和雙芯片兩種配置。單芯片 Maverick-2 擁有 32 個 RISC-V 核心,采用台積電 5nm 納米工藝制造,主頻為 1.5GHz。該卡支持 PCIe Gen5x16,配備 96GB HBM3E 內存,內存帶寬高達每秒 3.2TB。它擁有 128MB 的壹級緩存,配備 100GbE 網卡,熱設計功耗 (TDP) 為 400W,並采用風冷散熱。雙芯片 Maverick-2 則有效地將所有這些功能翻倍,但它需要接入 OAM(OCP 加速器模塊)總線,配備兩個 100GbE 網卡,支持風冷或液冷散熱,熱設計功耗為 750W。
NextSilicon 還分享了 Maverick-2 的壹些內部基准測試數據。就每秒千兆次更新 (GUPS) 而言,Maverick-2 能夠以 460 瓦的功耗提供 32.6 GUPS,據稱這比 CPU 快 22 倍,比 GPU 快近 6 倍。在 HPCG(高性能共軛梯度)類別中,Maverick-2 以 750 瓦的功耗實現了 600 GFLOPS 的計算能力,據稱這與領先的 GPU 相當,但功耗僅為後者的壹半。
NextSilicon 研發副總裁 Eyal Nagar 表示:“我們今天詳細討論的不僅僅是芯片,而是壹個基礎,壹種思考計算的新方式。它為工程師和科學家打開了壹個充滿可能性和優化的全新世界。”
壹顆意外的RISC-V芯片
NextSilicon 在發布會上,還同時披露了壹顆名為Arbel 的RISC-V CPU。該公司對 RISC-V CPU 設計其實並不陌生。如上面提到的Maverick-2 就使用了壹個定制的 RISC-V 內核來處理難以並行化的串行代碼。該芯片性能出色,因此該公司選擇采用獨立內核。
NextSilicon 表示,該核心顯然已經在台積電 5nm 工藝中實現,將支持高達 2.5 GHz 的時鍾速度,具有 10 寬的發射管道、480 條目的重新排序緩沖區,支持 16 條縮放器指令,並集成肆個 128 位矢量單元用於單指令多數據 (SIMD) 工作負載。
具體而言,Arbel 核心在整數端擁有壹個 10 位寬的發射解碼器和 6 個 ALU,在矢量端擁有 4 個 128 位 FPU。該核心可以並行支持 16 條標量指令。它擁有靠近 ALU 的 64 KB L1 指令緩存和 64 KB L1 數據緩存,以及靠近 FPU 的 1 MB L2 緩存。(這兩個緩存顯然都與所有計算單元交叉鏈接。)每個核心有 2 MB 的緩存,但同樣,我們不知道 Arbel 芯片上有多少個核心。
NextSilicon 表示 Arbel 核心可以與英特爾的“LionCove”Xeon 核心和 AMD 的“Zen5”Epyc 核心“相媲美”。
NextSilicon 強調,能實現這樣的突破,主要歸功於Arbel 通過肆項關鍵架構創新:
1、大規模指令流水線具有 10 寬的發射寬度和 480 條目的重新排序緩沖區,使 Arbel 能夠壹次發現更多問題並最大限度地提高核心利用率。
2、2.5 GHz 的核心頻率可提供高單線程性能,同時保持功率效率。
3、寬執行單元支持並行 16 條標量指令,加上肆個集成的 128 位矢量單元,可在數據並行工作負載上實現卓越的性能。
4、先進的內存子系統具有 64KB L1 緩存和大型共享 L3,可保持數據接近且核心持續供電 - 解決限制現代應用程序的內存帶寬和延遲瓶頸。
5、Elite TAGE 分支預測器可確保更快、更准確的決策,減少錯誤預測和浪費的工作。
“這是基於台積電 5 納米工藝打造的真正硅片——這是我們自主研發的專利 IP,並非授權或借用。由 NextSilicon 工程師打造,旨在實現 NextSilicon 的未來願景。”他們強調。
那麼,這是否意味著NextSilicon 將會成為壹家 CPU 公司?
該公司回應道:“不完全是,但我們正在探索壹些更有趣的東西。”
NextSilicon表示,公司看到客戶對 Arbel 表現出濃厚的興趣,這讓其看到了 AMD 和 NVIDIA 所意識到的機遇:CPU 和加速器技術之間垂直整合的強大力量。當你同時掌控通用計算和專用加速時,你就能以依賴其他 CPU 架構時無法實現的方式優化整個堆棧。
這種做法類似於 Nvidia 在其 GH200 和 GB200 超級芯片中對 Grace CPU 所做的那樣。
“當你同時控制通用計算和專用加速時,你可以優化整個堆棧,而當你依賴其他人的 CPU 架構時,這是不可能的,”Raz 解釋道。
NextSilicon聲稱,對於正在應對現代人工智能和高性能計算 (HPC) 基礎設施復雜性的企業來說,計算難題已不再是不可避免的。Maverick-2 代表了最佳平衡:工作負載優化的性能與通用可編程性、ASIC 級效率(無需多年的開發周期)以及即時加速,無需數拾年來困擾業界的供應商鎖定。
Maverick-2 的數據流架構已經徹底改變了計算領域,而 Arbel 也展現了我們從零開始設計世界壹流芯片的能力,我們正在證明,計算的未來並不需要你做出妥協,而是需要從頭開始重新思考架構。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達壹種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見