騰訊雲複盤4.8故障,哪些點值得關注?

微雲網絡 2024-04-22 13:10:36

4月8日,騰訊雲出現故障,有不少客戶都在網上進行了騰訊雲控制台登陸不上的反饋。經過故障定位發現,客戶登錄不上控制台正是由雲API異常所導致。近日,騰訊雲官方進行了問題複盤,公布了整個處理過程,如下:

1、15:23,監測到故障,立即執行服務的恢複,同時進行原因的排查;

2、15:47,發現通過回滾版本沒能完全恢複服務,進一步定位問題;

3、15:57,定位出故障根因是配置數據出現錯誤,緊急設計數據修複方案;

4、16:02,對全地域進行數據修複工作,API服務逐地域恢複中;

5、16:05,觀測到除上海外的地域API服務均已恢複,進一步定位上海地域的恢複問題;

6、16:25,定位到上海的技術組件存在API循環依賴問題,決定通過流量調度至其他地域來恢複;

7、16:45,觀測到上海地域恢複了,此時API和依賴API的PaaS服務徹底恢複,但控制台流量劇增,按九倍容量進行了擴容;

8、16:50,請求量逐漸恢複到正常水平,業務穩定運行,控制台服務全部恢複;

9、17:45,持續觀察一小時,未發現問題,按預案處理過程完畢。

故障的原因是雲API服務新版本向前兼容性考慮不夠和配置數據灰度機制不足的問題。

從這次故障及問題複盤中,我們值得注意的有三點。一是要提升系統韌性,二是要強化變更管理與保護措施,三是要增強故障響應與溝通能力。

服務器對業務影響很大,一定要重視。擁有廣泛的全球網絡覆蓋,提供專業的企業網絡解決方案,在業內有口皆碑。根據企業的細分需求,制定具有針對性的IDC數據中心托管方案。

1 阅读:31

微雲網絡

簡介:最可信賴的雲網服務商