揭DeepSeek高效內幕輝達親授"神速訓練"秘訣

日期: 2026-01-31 | 來源: 身邊 | 有0人參與評論 | 字體: 小中大
中國的人工智慧“深度求索”去年初主打低推出成本、高效能的人工智慧（AI）模型。如今，美國國會揭露文件指出，這項“高效率突破”背後，曾獲得美國芯片大廠輝達在2024年提供大量技術協助，改善其AI模型，而這些模型後來被中國軍方使用。

中國的人工智慧（AI）公司“深度求索”（DeepSeek）去年初推出低成本、高效能AI模型，其表現甚至可與美國壹些最頂尖的產品壹較高下，引發市場震蕩。華府對此相當擔憂，認為就算當局已限制把高效能運算芯片賣給中國，中國人可能在AI領域趕上美國。

輝達2024年提供技術支援DeepSeek訓練效率大增

然而，路透社28日看到壹封寫給美國商務部長盧特尼克（Howard Lutnick）的信件，其中密歇根州共和黨眾議員、聯邦眾議院美國與中國共產黨戰略競爭特別委員會主席穆勒納爾（John Moolenaar）表示，該委員會從輝達取得該公司2024年相關活動的文件顯示，DeepSeek這項成果是在輝達提供大量技術協助後才達成。

穆倫納爾在信中寫道，“根據輝達的內部紀錄，輝達的技術研發人員透過『演算法、框架和硬體的最佳化協同設計』，大幅提升DeepSeek的訓練效率。輝達內部報告甚至自豪地（boasting）指出，『DeepSeek完整訓練僅需278.8萬個H800 GPU小時（GPU Hours）運算時間』，這低於美國開發者在打造前沿級模型（frontier-scale models）時通常所需的運算量。”

所謂GPU小時（GPU hours）指的是訓練壹個人工智慧模型時，AI芯片必須運作的總時數，其公式為：執行小時數×GPU數，舉例來說，5張芯片跑了6個小時，那就是30個GPU小時。至於前沿級模型，則是指由美國企業推出的頂尖模型，例如OpenAI、Anthropic，或Alphabet旗下的Google所開發的模型。

穆倫納爾寫道，當時輝達向DeepSeek提供協助時，外界並沒有任何公開跡象顯示DeepSeek的技術會被中國軍方使用，“因此，輝達是以正常方式對待DeepSeek，將之視為壹個合法的商業伙伴，來提供標准的技術支援。”
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞