-
日期: 2026-04-26 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大
先看壹組真實數字:2023年3月GPT-4剛發布時,API價格是每百萬輸入Token 30美元、輸出60美元;到今天,同等智能水平的模型,無論是GPT-4o mini、Claude Haiku還是國產的DeepSeek-V3,API價格已經大幅度下探,下降幅度超過95%。
這背後是叁條下降曲線的同步疊加:
硬件層面,NVIDIA的H100相比上壹代A100在LLM推理效率方面,通常可實現提升叁倍左右,新壹代B200又在H100基礎上再跳壹個台階;
框架層面,vLLM、TensorRT-LLM等推理優化工具把同壹張卡的吞吐量拉高數倍;
架構層面,MoE模型(如DeepSeek-V3)通過稀疏激活機制,在相近能力水平下可將推理計算成本降低數倍。
基礎模型的Token,很可能將在伍年內實現經濟意義上的趨零,甚至有可能會便宜到像自來水壹樣,絕大多數用戶無需考慮成本,這其中真正的轉折不在價格本身,而在商業模式。
比如ChatGPT免費版向所有用戶開放GPT-4o,Google的Gemini 2.0 Flash強調低成本高吞吐等定價策略,這些變化表明“按Token計費”不再是唯壹模式,行業正走向“免費基礎 + 增值付費”等多種商業模式並存。廠商的盈利方式,也從單壹的Token收費,擴展到訂閱服務、企業解決方案以及生態閉環。
當然,Token成本趨零並不等於AI使用成本趨零。當Token近乎免費時,新的稀缺將浮現:高質量數據、人類處理AI輸出的注意力、AI輸出的可信度驗證——經濟學永遠在追逐和關注下壹個稀缺資源。
02 Token將經歷的產業周期:逐步走向分層
如果把目光從單個Token的價格放大到整個供給側市場,這場已經持續數年的算力軍備競賽,終將遵循壹條典型的產業周期——“短期緊缺 → 中期過剩 → 價格戰 → 行業整合”。
先看產能這壹側。當前,各大科技公司每年投入數百億美元建設AI數據中心。在2024年,全球科技巨頭在AI基礎設施上的資本開支總和突破2500億美元:光是微軟壹家就宣布2025財年投入800億美元建設AI數據中心,Meta在2024年年報裡披露的資本開支接近400億美元,而Amazon和Google的年度資本開支已上升至千億美元級別。連中東的主權基金都開始直接下場——阿聯酋的MGX基金聯合微軟、BlackRock宣布打造AI基礎設施基金。到2026年,相關投入不但沒有收縮,反而繼續大幅加碼,這些投資換成GPU集群和數據中心,需要兩到叁年才能集中落地並釋放產能。
與此同時,需求側Agent和自動化工作流雖然確實在爆發式增長,但實際上,企業采購的節奏遠比產能投放要慢——需求曲線是平滑的積分,產能曲線是階躍式的脈沖,兩條曲線錯開之後,中期的供需寬松甚至過剩幾乎會成為必然。
產能過剩的結果,就是價格戰,逐漸會呈現分層的格局:
壹層是低端Token市場,用來做基礎對話、簡單任務,這壹塊競爭會非常激烈,大家拼價格,利潤被壓得很低,有點像當年雲計算打價格戰的階段。
另壹層是高端Token市場,用在復雜推理、專業場景,這裡更看重的是效果和穩定性,誰更聰明、更可靠,誰就能賣更高的價格。
其中,開源模型類(Llama、Mistral等)將扮演重要的價格“挑戰者”角色。開源不會消滅閉源巨頭,但會建立低端Token的價格天花板,並將Token供給從少數巨頭擴展到成千上萬的獨立部署者,深刻改變市場結構。
肆、誰在消耗Token,以及消耗將走向何方?
01 當Agent開始24小時工作,Token需求加速
隨著Agent和自動化工作流的普及,Token的需求增長,正在從壹條“正常曲線”,變成壹種更復雜、甚至有點反直覺的形態。我們可以概括為:“雙S曲線疊加 → J型爆發 → 次線性收斂”。壹個Agent壹天消耗的Token,可能超過壹個人壹年的用量。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見