如何进行生产环境作业监控
聲明:本系列博客為原創(chuàng),最先發(fā)表在拉勾教育,其中一部分為免費閱讀部分。被讀者各種搬運至各大網(wǎng)站。所有其他的來源均為抄襲。
《2021年最新版大數(shù)據(jù)面試題全面開啟更新》
之前我們介紹如何發(fā)現(xiàn)Flink任務(wù)是否出現(xiàn)反壓,F(xiàn)link后臺頁面是發(fā)現(xiàn)問題的第一選擇,后臺頁面可以直觀、清晰地看到當(dāng)前作業(yè)的運行狀態(tài)。
在實際生產(chǎn)中,F(xiàn)link的后臺頁面可以方便對Flink JobManager、TaskManager、執(zhí)行計劃、Slot分配、是否反壓等參數(shù)進(jìn)行定位,對單個任務(wù)來講可以方便地進(jìn)行問題排查。
但是對很多中大型企業(yè)來講,對集群的作業(yè)進(jìn)行管理時,更多的是關(guān)心作業(yè)精細(xì)化實施運行狀態(tài)。例如,實時吞吐的同比環(huán)比、整個集群的任務(wù)運行概覽、集群水位,或者監(jiān)控利用Flink實現(xiàn)的ETL框架的運行情況等,這時候需要設(shè)計專門的監(jiān)控系統(tǒng)來監(jiān)控集群的任務(wù)作業(yè)情況。
Flink Metrics
針對上面的情況,可以使用Flink提供的另一個強(qiáng)大的功能:Flink Metrics。
Flink Metrics是Flink實現(xiàn)的一套運行信息收集庫,不但可以手機(jī)Flink本身提供的系統(tǒng)指標(biāo),比如CPU、內(nèi)存、線程使用情況、JVM垃圾收集情況、網(wǎng)絡(luò)和IO等,還可以通過繼承和實現(xiàn)指定類或者接口打點手機(jī)用戶自定義的指標(biāo)。
使用Flink Metrics可以做到:
- 實時采集Flink中的Metrics信息或者自定義用戶需要的指標(biāo)信息并進(jìn)行展示;
- 通過Flink提供的Rest API收集這些信息&
總結(jié)
以上是生活随笔為你收集整理的如何进行生产环境作业监控的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 否打开人工智能的“黑箱”?
- 下一篇: 复盘|接口自动化测试框架建设的经验与教训