干货分享 | B站SLO由失败转成功,B站SRE做对了什么?
最近幾年,Google SRE在國內非常流行。
Google SRE方法論中提出了SLO是SRE實踐的核心,SLO為服務可靠性設定了一個目標級別,它是量化線上質量的關鍵因素,它是用來回答一個服務到底“什么時候叫做掛了”的根本依據,也是可量化可統計的依據所在。
在大多數IT和運營部門中,可觀測性是一個不斷發展的技術領域。為了更好地發布穩定的軟件系統,企業需要持續了解性能、正常運行時間和可用性等指標。因此,工程師正在全面增加對SLO的使用,用SLO來衡量系統的質量。一項研究發現,82%的企業正在增加對SLO的使用。
中國年輕世代高度聚集的文化社區和視頻網站平臺,B站也引入了SLO,并將SLO用作一個穩定性保障手段,幫服務觀測線上隱患,保障服務在線上環境的可用率。
本期「UGeek大咖說-大廠可觀測」邀請到B站在線SRE負責人武安闖做客直播間,為大家帶來《以SLO為核心的可用性觀測與質量運營》的分享,將以SRE中的SLO工程為核心,探討如何抽絲剝繭度量服務的可用性?如何開展報警治理?如何第一時間發現線上問題?
直播預約
嘉賓介紹
武安闖
-嗶哩嗶哩?/ 基礎架構部 / 在線SRE負責人-
-
先后負責中間件運維、在線業務保障和SRE穩定性工程
-
從0到1帶領運維到SRE轉型,建設B站穩定性體系
-
主導建設SRE轉型、SLO工程、容量管理體系、高可用架構、多活容災等專項
-
當前專注SRE穩定性體系規劃建設和落地實踐
直播主題
《以SLO為核心的可用性觀測與質量運營》?
微服務系統中采集和配置了豐富的指標、報警,海量的觀測指標和報警又讓大家無法及時發現線上問題。如何抽絲剝繭度量服務的可用性,如何開展報警治理,如何第一時間發現線上問題,本次分享將以SRE中的SLO工程為核心來探討一下服務的可用性觀測、報警治理與質量運營。
直播時間
2022年11月24日20:00-21:00
直播亮點
分享Google SRE中最核心的SLO工程方法論和落地實踐!
觀眾收益
了解可用性指標的觀測對象、觀測方案和落地實踐
了解Google SRE中最核心的SLO工程方法論及SLO實施經驗
了解如何從SLO出發來做報警治理與質量運營
總結
以上是生活随笔為你收集整理的干货分享 | B站SLO由失败转成功,B站SRE做对了什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ArcGIS配图/地图符号化的一些技巧与
- 下一篇: 使用U盘制做CentOS7.6安装盘并安