時間:2024-04-14 16:28 來源:證券之星 閱讀量:9804
騰訊云發(fā)布4月8日故障情況說明:持續(xù)近87分鐘 共有1957個客戶報障)
4月14日早間,騰訊云發(fā)布4月8日故障復(fù)盤及情況說明。據(jù)透露,4月8日15點23分,騰訊云團隊收到告警信息,云API服務(wù)處于異常狀態(tài);隨即在騰訊云工單、售后服務(wù)群以及微博等渠道開始大量出現(xiàn)騰訊云控制臺登錄不上的客戶反饋。
經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導(dǎo)致。云API是云上統(tǒng)一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網(wǎng)頁功能。
故障發(fā)生后,依賴云API提供產(chǎn)品能力的部分公有云服務(wù),也因為云API的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。
整個處理過程如下:
1.15:23,監(jiān)測到故障,立即執(zhí)行服務(wù)的恢復(fù),同時進行原因的排查;
2.15:47,發(fā)現(xiàn)通過回滾版本沒能完全恢復(fù)服務(wù),進一步定位問題;
3.15:57,定位出故障根因是配置數(shù)據(jù)出現(xiàn)錯誤,緊急設(shè)計數(shù)據(jù)修復(fù)方案;
4.16:02,對全地域進行數(shù)據(jù)修復(fù)工作,API服務(wù)逐地域恢復(fù)中;
5.16:05,觀測到除上海外的地域API服務(wù)均已恢復(fù),進一步定位上海地域的恢復(fù)問題;
6.16:25,定位到上海的技術(shù)組件存在API循環(huán)依賴問題,決定通過流量調(diào)度至其他地域來恢復(fù);
7.16:45,觀測到上海地域恢復(fù)了,此時API和依賴API的PaaS服務(wù)徹底恢復(fù),但控制臺流量劇增,按九倍容量進行了擴容;
8.16:50,請求量逐漸恢復(fù)到正常水平,業(yè)務(wù)穩(wěn)定運行,控制臺服務(wù)全部恢復(fù);
9.17:45,持續(xù)觀察一小時,未發(fā)現(xiàn)問題,按預(yù)案處理過程完畢。
故障的原因是云API服務(wù)新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機制不足的問題。
本次API升級過程中,由于新版本的接口協(xié)議發(fā)生了變化,在后臺發(fā)布新版本之后對于舊版本前端傳來的數(shù)據(jù)處理邏輯異常,導(dǎo)致生成了一條錯誤的配置數(shù)據(jù),由于灰度機制不足導(dǎo)致異常數(shù)據(jù)快速擴散到了全網(wǎng)地域,造成整體API使用異常。
發(fā)生故障后,按照標(biāo)準回滾方案將服務(wù)后臺和配置數(shù)據(jù)同時回滾到舊版本,并重啟API后臺服務(wù),但此時因為承載API服務(wù)的容器平臺也依賴API服務(wù)才能提供調(diào)度能力,即發(fā)生了循環(huán)依賴,導(dǎo)致服務(wù)無法自動拉起。通過運維手工啟動方式才使API服務(wù)重啟,完成整個故障恢復(fù)。
騰訊云表示,綜合盤點這次故障,最根本的原因是在版本變更過程中,沒有有效執(zhí)行沙箱驗證和預(yù)案演練,暴露了在變更管理上的不足,接下來將從幾個方面快速進行改進和完善,包括提升系統(tǒng)韌性、強化變更管理與保護措施、增強故障響應(yīng)與溝通能力。
聲明:免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。