-
日期: 2026-03-03 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大

文|曉靜
編輯|徐青陽
北京時間2026年3月2日晚間19點49分,Anthropic的AI助手Claude在全球范圍內突然陷入大面積服務中斷。claude.ai網頁端、開發者控制台、AI編程工具Claude Code以及移動端應用幾乎同時亮起紅燈,數千名用戶湧入Downdetector報告故障,高峰期報障數量數千條。用戶在嘗試登錄時看到的是HTTP 500和529錯誤碼,或者壹句簡短的提示:“Claude will return soon.”
對於全球數以百萬計已經將Claude深度嵌入日常工作流的開發者、內容創作者和企業用戶而言,這場宕機的體感更接近壹次“大面積停電”。
社交媒體上,有人自嘲“只會寫prompt了,怎麼辦”;有開發者說,工作寫到壹半突然斷了,只能被迫切換到ChatGPT或Gemini應急;更有人在群裡調侃:“AI Native”的公司今天不如去團建。
01 全球“打地鼠式”宕機
“宕機”的具體原因,至今Anthropic官方也沒有詳細的解釋,但是過去壹周發生了壹系列事情。
2月28日,Anthropic因拒絕將Claude用於大規模國內監控和全自動武器系統,失去了與美國伍角大樓的合同。特朗普總統隨即在社交媒體上抨擊Anthropic是“左翼瘋子”,並下令所有聯邦機構停止使用Claude。OpenAI迅速接手,宣布與伍角大樓達成合作協議。
這壹事件在全球用戶群體中引發了戲劇性的反轉。壹場名為“QuitGPT”的抵制運動在Reddit、Instagram和X上迅速蔓延。Reddit上壹條呼吁取消ChatGPT的帖子獲得了3萬個贊,Instagram賬號“quitGPT”短時間內吸引了超過78000名關注者。
據Tom's Guide報道,約70萬用戶開始從ChatGPT轉投其他平台。Anthropic成了這場數字遷徙的最大受益者。
根據Anthropic官方披露的數據,自2026年1月以來,Claude免費用戶數量增長超過60%,每日新注冊用戶數較2025年11月翻了叁倍,付費訂閱用戶在年內已經翻倍。在超級碗LX之前,Claude在美國App Store的排名還在第42位;到2月28日,它登上了免費應用排行榜第壹名,將ChatGPT擠到了第贰。
這波“潑天富貴”來得太猛了。從Sensor Tower的數據看,Claude在整個2月都處於快速攀升通道,但最後幾天的用戶湧入量遠超Anthropic基礎設施的承載預期。
外媒在報道中引用Anthropic的說法稱,公司在過去壹周壹直在應對“前所未有的需求”。
Downdetector中Claude報障飆升曲線
從Anthropic官方狀態頁面的時間線來看,故障的演進呈現出“打地鼠”式的特征。
UTC11:49(北京時間19:49),團隊開始調查問題,最初判斷故障集中在claude.ai的登錄和登出路徑。
UTC12:21(北京時間20:21),Anthropic宣稱核心API運轉正常,問題僅限於Web端。
UTC 13:37(北京時間21:37),情況出現惡化,部分API方法也開始報錯。
此後,Claude Opus 4.6模型在UTC 17:09 出現異常,緊接著Claude Haiku 4.5在UTC 17:56也受到波及。修復、復發、再修復的循環持續了數小時。
直到UTC 15:47(北京時間23:47)左右,主要服務才逐步恢復。隨後 Opus 4.6 又出現多次短時 elevated errors(含壹段延續到約 21:16 UTC ,北京時間3月3日5:16)。
而僅僅幾個小時後的UTC 3月3日凌晨3:15(北京時間11:15),新壹輪故障再次出現,影響范圍擴展到了Claude Code和Cowork,截至發稿時問題仍在調查中。
關於宕機的原因,還有媒體報道稱,中東地區的AWS數據中心疑似遭受“不明物體”襲擊導致起火斷電,AWS算力池受到沖擊,而高度依賴這些算力節點的Claude模型因此失去支撐。
AWS 官方狀態頁的事故通告:阿聯酋(UAE)區域(ME-CENTRAL-1)某個可用區因供電事故(數據中心被異物擊中引發火花/起火,消防切斷電力)導致多項服務與 EC2 網絡相關 API 錯誤率升高、服務受影響。
遠在中東的地緣沖突,為什麼可能會引起美國 AI公司的大規模宕機事件?
當下,AI 服務的關鍵鏈路高度全球化且存在少數“咽喉點”:地緣沖突若導致紅海—曼德海峽—蘇伊士壹帶的海底光纜受損、區域網絡受限,或波斯灣/阿拉伯半島周邊雲數據中心與電力設施、跨境骨幹網、海纜登陸站出現中斷與擁塞,就可能引發跨區域的網絡時延飆升、路由收斂異常、認證/計費/控制面訪問失敗,以及跨區復制和故障切換受阻。
而大模型推理與訓練對帶寬、低時延和雲控制面依賴更強,壹旦這些“底層要素”被擾動,原本分布式的雲服務也會以連鎖方式把故障放大為面向全球用戶的系統性宕機。
海底光纜在波斯灣的“匯聚點”:“TeleGeography 海底光纜地圖顯示,阿聯酋富查伊拉(Fujairah)與伊朗賈斯克(Jask)之間的 UAE–Iran 海纜只是其中壹段,周邊密集的光纜走廊把中東連接到歐洲與亞洲的主幹網絡;壹旦該區域出現地緣沖突或基礎設施擾動,全球數據鏈路的脆弱性會被放大。”
更值得關注的是,Claude 宕機當天,xAI 官方狀態頁顯示Grok(Web/iOS/Android)在同日 約 UTC 23 點前後也發生了約 40 分鍾的“暫時不可用”事件。但兩者是否存在共同上游或因果關聯,目前缺乏公開證據。
這條鏈路如果屬實,意味著這次宕機不僅僅是前端認證系統的問題,而是涉及底層雲基礎設施的物理脆弱性。
在賽博空間裡算力通天的大模型,在真實世界的“物理打擊”面前顯得格外脆弱。
02 下游生態的連鎖反應
Claude這次宕機之所以引發如此大的關注,核心原因在於 ,AI已經從壹個聊天機器人,變為壹整條AI Native生產力鏈條的關鍵節點。
首先受到沖擊的是開發者群體。Claude Code已經成為全球開發者最依賴的AI編程工具之壹。據此前的報道,Claude Code產品年化收入估算約2億美元量級。Anthropic的Claude Code創始人Boris Cherny曾在播客中透露,他自2025年11月起就再也沒有手動編輯過壹行代碼。
當Claude Code完全不可用時,外媒報道社區普遍反映:開發者們被迫回到生成式AI出現之前的習慣,自己動手寫代碼。
專業開發者被迫在工作流中途切換到GitHub Copilot或ChatGPT的編碼功能,但這種切換本身就意味著效率損失和上下文斷裂。對於那些將Claude API深度集成到自有產品中的公司,影響更為直接。
雖然Anthropic聲稱API在大部分時間保持正常運轉,但UTC 13:37的那段時間,API也出現了故障,這恰恰是那些沒有多模型容錯方案的企業失去所有AI功能的關鍵時刻。
內容創作領域同樣遭受沖擊。依賴Claude進行文案撰寫、報告生成、數據分析的團隊被迫暫停工作。客戶服務機器人集體沉默,工單開始堆積。
據Deployflow的分析測算,對於壹個25人規模的工程團隊,即便按每小時90英鎊的計費標准,4小時的服務中斷也意味著超過9000英鎊的生產力損失,還不包括下游的連鎖延遲。
更深遠的影響在於信任層面。這已經是Claude在叁天內的第贰次重大服務中斷:2月28日,Claude Opus 4.6模型就曾出現過故障。ainvest的分析指出,重復性的服務中斷正在侵蝕用戶對平台可靠性的信任,尤其是對於那些在Claude之上構建業務的開發者和企業而言,持續的正常運行時間是最基本的要求。
Claude做了什麼,讓企業對它的依賴性如此強?
讓Claude從“好用的模型”變成“生態鏈核心”的,是Anthropic持續搭建的Agent基礎設施。
據Anthropic官方2025年7月披露的數據,Claude Code發布肆個月就吸引了11.5萬開發者,每周處理1.95億行代碼,周下載量達300萬次。
2026年1月剛剛發布的Claude Cowork則更激進:壹個能點擊鼠標、管理文件、跨軟件執行任務的桌面智能體,配合11個覆蓋法律、銷售、財務等領域的行業插件,直接以“數字員工”的身份接管知識工作。
在底層,Anthropic推出的MCP協議正成為AI連接外部工具的事實標准,甚至競品OpenAI和Google都先後宣布支持,圍繞它已形成包含500多個商業應用連接器的生態。
Claude在當下不僅僅是壹個模型API,包含了模型(智能大腦)+ Code/Cowork(執行)+ MCP(連接)構成的“AI操作系統”。
Claude在開發者和企業生態中滲透太深,讓很多AI-Native公司形成了基礎設施級別的系統性依賴,而這個基礎設施的可靠性,還遠沒有達到它所承載的期望。
03 AI基礎設施的脆弱性
這次Claude宕機事件不是孤例。研究機構Forrester在《2026年預測:雲計算》報告中做出了壹個判斷:AI數據中心的升級改造將在2026年觸發至少兩次重大的、持續多天的雲服務中斷。這其中的邏輯是,AWS、Azure和Google Cloud等超大規模雲服務商正在將投資重心從傳統x86和ARM環境轉向以GPU為中心的AI數據中心,而老化的基礎設施在日益增長的復雜性下變得脆弱不堪。
Forrester還預測,至少15%的企業將在2026年轉向私有雲上的私有AI部署,以應對不斷上升的成本、數據鎖定和運營風險。
2025年已經給出了預警信號。AWS曾遭遇超過1700萬Downdetector報告、持續超過15小時的大規模宕機,影響了Netflix、Snapchat等壹系列服務。2025年11月,Cloudflare的服務中斷導致包括Claude、Shopify、X在內的大量網站癱瘓。2025年12月,亞馬遜自研的AI編程工具Kiro在自動修復壹個客戶面向系統時,自主決定刪除並重建整個環境,觸發了壹次長達13小時的AWS Cost Explorer中斷。單點故障引發的連鎖反應,正在成為AI時代最危險的系統性風險。
這對整個行業的啟示是多維度的。第壹,多模型冗余不再是可選項,而是必選項。此次宕機中,那些提前部署了多LLM容錯方案的企業,比如在Claude不可用時自動切換到Gemini或GPT等模型,受到的影響明顯更小。未來的AI基礎設施架構必須像今天的多雲部署壹樣,將“模型冗余”納入核心設計。
第贰,觀測能力至關重要。Deployflow的分析指出,Token延遲追蹤和錯誤率飆升警報是預判服務崩潰的早期信號,能夠讓團隊在全公司失去AI訪問之前就進行切換。
第叁,物理基礎設施的安全性被嚴重低估。如果中東數據中心遇襲的因果鏈條成立,那麼AI基礎設施面臨的威脅不僅來自軟件層面,還包括地緣政治風險、物理攻擊甚至自然災害。
Forrester還指出了壹個值得關注的趨勢:“新雲”(neoclouds),如CoreWeave、Lambda和Nebius等專注於高性能GPU的專業化雲服務商,預計將在2026年獲得200億美元的收入,侵蝕超大規模雲服務商在生成式AI領域的主導地位。
這些服務商從零開始構建GPU優先的架構,而非在舊數據中心上進行改造,可能為AI基礎設施的韌性提供新的解題思路。
對於正在搭建AI基建的企業和平台而言,這次事件留下了清晰的教訓:不要把所有雞蛋放在壹個籃子裡,也不要假設任何壹家供應商,能夠提供100%的正常運行時間。
在AI成為真正的“水電煤”之前,它的基礎設施必須先達到“水電煤”級別的可靠性。否則,每壹次宕機都將是壹次對整個生態的壓力測試。
截至發稿,Claude服務仍存在間歇性故障,Anthropic還在持續調查中。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見