-
日期: 2024-04-09 | 來源: 非法加馮 | 有0人參與評論 | 專欄: 騰訊 | 字體: 小 中 大
昨天下午,2024年04月08日,騰訊雲出現了壹場全球性的大故障,用騰訊雲官方的說法,崩了 74 分鍾(15:31 – 16:45),波及全球 17 個區域與數拾款服務。
事實影響是什麼
但這與我觀察到的事實不符 —— 從故障范圍上來說,這次的故障幾乎是去年阿裡雲雙拾壹史詩級大故障的翻版 —— 小道消息是整個管控面 GG,雲 API 掛了,所以現象與去年阿裡雲如出壹轍:依賴雲 API 的雲產品控制台不能用了。
被管控的純資源,如雲服務器 CVM,雲數據庫 RDS, 設置了公開讀寫訪問對象存儲 COS 不受影響可以繼續使用。然而依賴認證與API 的各種雲 PaaS 服務,例如標准的私有讀寫的對象存儲 COS,就抓瞎了。
因為阿裡雲至今沒有做壹個像樣的事後故障復盤,因此在《我們能從阿裡雲史詩級故障中學到什麼》中,我為阿裡雲的這次故障做了非官方的技術復盤。同樣的判斷邏輯完全也適用於這次故障 —— 這樣的爆炸半徑,根因出在 Auth 上的概率很大。目前,騰訊雲仍然沒有給出官方的事後故障復盤報告,也可能不會有了。
忽悠人的狀態頁
我的朋友楊攀曾寫過壹篇《中國雲服務走向全球?先把 Status Page 搞定》,討論了 Status Page (服務健康狀態頁)對於公有雲服務的重要性,各家本土雲廠商也跟進了這壹特性,包括騰訊雲。—— 狀態頁能在服務宕機的情況下有效減少客戶的焦慮,降低溝通成本,但它的核心價值在於 “建立與客戶的信任關系”。
看上去,騰訊雲與阿裡雲的 Status Page 反應都比較遲緩,在故障發生後叁肆拾分鍾才開始更新。而不是像 Cloudflare 等產品壹樣及時更新故障,或采用自動化方式監測到故障後立即推送。但不同於阿裡雲 —— 雖慢卻誠實地標記了所有服務受到影響,騰訊雲的 Status Page 連基本的真實性與准確性都堪稱稀爛。
例如,受到影響的對象存儲 COS 服務,在有用戶上報問題的幾個可用區中,我並沒有看到 Status 標紅。而這樣的例子還有更多。事實上如果問題真出在管控 API 上,那麼影響的范圍應該和阿裡雲壹樣 —— 所有服務的控制面。因此,這樣雞賊的做法只會給客戶留下:“不透明、有貓膩“ 的負面印象。
撒謊的叁無公告
在故障出現 40 ~ 50 分鍾後,騰訊雲終於發出了第壹份故障公告,也是截止到目前 Status Page 上唯壹壹份公告。但其內容就壹句話 —— 叁無公告:無時間(故障時間),無地點(可用區/AZ),無范圍(影響服務)。而且姍姍來遲,比我替它發的公告《【騰訊】雲計算史詩級贰翻車來了》還晚了拾分鍾。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見