一次服务器CPU占用率高的定位分析
背景
通過性能監控發現上線服務器cpu某核占用率已經達到了100%,而且是由我們的某個核心服務導致的。幸虧由于我們的服務進程由多個相同worker(線程)調度承擔的,所以除了CPU占用率高之外,并沒有對服務造成影響。隨著上次我們找到那個吃IO的罪犯,這次我們要追捕的是潛伏在團體中的特務,更加驚險刺激喲!
系統環境
系統環境?
用top命令很容易定位到是誰占用CPU最高。
top命令定位CPU最高進程以我們的這個業務進程(imDevServer)舉例,為什么說這貨是個潛伏者呢?因為這是個多線程的進程,我們要知道實際上占用cpu的最小單位是線程,所以肯定是眾線程中的某一個或幾個占用CPU過高導致的。再用top -H -p pid命令查看進程內各個線程占用的CPU百分比。
top -H -p pid命令,查看進程中線程占用的CPU百分比如上圖所示我們可以看出id為8863的線程cpu占用率最高。好,我們現在只要能找到他偷走的cpu就好了,雖然這小子嘴巴嚴,但是我們有一套完善的審問流程,不怕他不招。首先出馬的是strace -T -r -c -p pid命令
strace -T -r -c -p pid命令它的作用是查看系統調用和花費的時間,epoll_wait雖然占用的調用時間多,但是他本身是個正常的阻塞調用。我們接著讓pstack pid出馬
pstack pid出馬可以看到每個線程的調用堆棧,找到已經找出的占用CPU最高的那個線程,然后看他的調用堆棧,很容易看出在哪一步邏輯上導致了busy loop,再使用trace -p tid看看線程的調用過程接著定位到代碼,修復bug,找回被偷走的cpu。
總結
以上是生活随笔為你收集整理的一次服务器CPU占用率高的定位分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术分享:浅谈Service Mesh在
- 下一篇: 讲一点分布式的基础知识,图解!