當前位置：首頁 > 运维知识 > linux >内容正文

linux

分析linux系统的运行性能,Linux系统如何分析CPU的性能瓶颈

發布時間：2025/4/5 linux 34 豆豆

生活随笔收集整理的這篇文章主要介紹了分析linux系统的运行性能,Linux系统如何分析CPU的性能瓶颈小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以下內容來自轉載和自己的初用體驗。

vmstat

[root@master ~]# vmstat -n 3

procs? ?---memory--?? ?--swap--?? ?--io--??--system--????--cpu---

r? b??swpd?? free?? buff? cache???si??so???bi???bo????in

cs??????us sy id wa st

0? 0????? 115516 6043024? 430340??8691840????0??0

2???22????1???1???1? 0 99? 0? 0? 0? 0????115516 6043024

430340??8691840????0???0????0???0???1124??751

0? 0 100? 0? 0 ?0? 0????? 115516 6043148

430344???8691840????0???0????0???25???1070?762

0? 0 100? 0? 0

PROC

如果在processes中運行的序列是連續的大于在系統中的CPU的個數表示系統現在運行比較慢，有多數的進程等待CPU。

如果r的輸出數大于系統中可用CPU個數的4倍的話，則系統面臨著CPU短缺的問題，或者是CPU的速率過低，系統中有多數的進程在等待CPU，造成系統中進程運行過慢。

SYSTEM

in: 每秒產生的中斷次數

cs: 每秒產生的上下文切換次數

上面2個值越大，會看到由內核消耗的CPU時間會越大

CPU

us:用戶進程消耗的CPU時間百分比，其中us值比較高時，說明用戶進程消耗的CPU時間多；如果長期超50%的使用，那么我們該考慮優化程序算法或者進行加速

sy: 內核進程消耗的CPU時間百分比(sy的值高時，說明系統內核消耗的CPU資源多，并不是良性表現，我們應該檢查原因)

wa:IO等待消耗的CPU時間百分比(值高時，說明IO等待比較嚴重，這可能由于磁盤大量作隨機訪問造成，也可能磁盤出現瓶頸，如塊操作)

id: CPU處于空閑狀態的百分比，如果空閑時間持續為0并且系統時間是用戶時間的兩倍，那么系統則面臨CPU資源的短缺

解決方法：

當發生以上問題的時候請先調整應用程序對CPU的占用情況，使得應用程序能夠更有效的使用CPU，同時可以考慮增加更多的CPU，關于CPU的使用情況還可以結合mpstat、ps

aux 、top、mpstat

-a等等一些相應的命令來綜合考慮關于具體的CPU的使用情況，和那些進程在占用大量的CPU時間，一般情況下，應用程序的問題會比較大一些。

sar

Usage: sar [ options... ] [ [ ]

]

Options are:

[ -A ] [ -b ] [ -B ] [ -c ] [ -d ] [ -i ] [ -p ] [

-q ]

[ -r ] [ -R ] [ -t ] [ -u ] [ -v ] [ -V ] [ -w ] [ -W ] [ -y ]

[ -I { | SUM | ALL | XALL } ] [ -P { | ALL

} ]

[ -n { DEV | EDEV | NFS | NFSD | SOCK | ALL } ]

[ -x { | SELF | ALL } ] [ -X { | SELF | ALL

} ]

[ -o [ ] | -f [ ] ]

[ -s [ ] ] [ -e [ ] ]

在命令行中，n和t兩個參數組合起來定義采樣間隔和次數，t為采樣間隔，是必須有的參數，n為采樣次數，是可選的，默認值為1， -o

file表示將命令的結果以二進制格式存放

在文件中，options為命令可選項：

-A：所有報告的總和。

-u：CPU利用率

-v：進程、I節點、文件和鎖表狀態。

-d：硬盤使用報告。

-r：內存和交換空間的使用統計。

-g：串口I/O的情況。

-b：緩沖區使用情況。

-a：文件讀寫情況。

-c：系統調用情況。

-q：報告隊列長度和系統平均負載

-R：進程的活動情況。

-y：終端設備活動情況。

-w：系統交換活動。

-x { pid | SELF | ALL

}：報告指定進程ID的統計信息，SELF關鍵字是sar進程本身的統計，ALL關鍵字是所有系統進程的統計。

用sar進行CPU利用率的分析

[root@master ~]# sar -u 2 10

Linux 2.6.18-194.el5 (master)?? 12/13/2012

06:50:01 PM

CPU???? %user

%nice?? %system?? %iowait

%steal???? %idle

06:50:03 PM

all

1.50

0.08

0.58

7.24????? 0.00

90.60

06:50:05 PM

all

3.25

0.17

0.58

6.74????? 0.00

89.26

06:50:07 PM

all

1.33

0.08

0.67

8.01????? 0.00

89.91

06:50:09 PM

all

1.25

0.00

0.67

7.35????? 0.00

90.73

06:50:11 PM

all

1.08

0.25

0.42

7.75????? 0.00

90.50

06:50:13 PM

all

1.33

0.08

0.58

8.00????? 0.00

90.00

06:50:15 PM

all

1.42

0.08

0.42

7.18????? 0.00

90.90

06:50:17 PM

all

1.25

0.08

0.42

8.01????? 0.00

90.24

06:50:19 PM

all

1.33

0.08

0.50

8.17????? 0.00

89.92

06:50:21 PM

all

1.25

0.25

0.42

7.17????? 0.00

90.92

Average:

all

1.50

0.12

0.53

7.56????? 0.00

90.30

在顯示內容包括：

%user：CPU處在用戶模式下的時間百分比

%nice：CPU處在帶NICE值的用戶模式下的時間百分比

%system：CPU處在系統模式下的時間百分比

%iowait：CPU等待輸入輸出完成時間的百分比

%steal：管理程序維護另一個虛擬處理器時，虛擬CPU的無意識等待時間百分比

%idle：CPU空閑時間百分比

在所有的顯示中，我們應該主要注意%iowait和%idle，

%iowait的值過高，表示硬盤存在I/O瓶頸，%idle值高，表示CPU較空閑。

如果%idle值高但系統響應慢時，有可能是CPU等待分配內存，此時應加大內存容量。反之如果持續低于10，那么系統的CPU處理能力相對較低，表明系統中最需要解決的資源是CPU。

用sar進行運行進程隊列長度分析：

[root@master ~]# sar -q 2 10

Linux 2.6.18-194.el5 (master)?? 12/13/2012

06:57:55 PM?? runq-sz? plist-sz

ldavg-1?? ldavg-5? ldavg-15

06:57:57 PM

0????? 1196

0.63

0.48????? 0.30

06:57:59 PM

0????? 1196

0.63

0.48????? 0.30

06:58:01 PM

0????? 1196

0.58

0.47????? 0.30

06:58:03 PM

0????? 1198

0.58

0.47????? 0.30

06:58:05 PM

0????? 1198

0.61

0.48????? 0.30

runq-sz：準備運行的進程運行隊列

plist-sz：進程隊列里的進程和線程的數量

ldavg-1：前一分鐘的系統平均負載(load average)

ldavg-5：前五分鐘的系統平均負載

ldavg-15：前15分鐘的系統平均負載

順便說一下load average的含義

load avarage可以理解為每秒鐘CPU等待運行的進程個數。

在liunx系統中，有很多命令都會有系統平均負載load average的輸出，那么什么是系統負載呢？

定義：在特定時間間隔內運行隊列中的平均任務數。如果一個進程滿足以下條件則其就會位于運行隊列中：

1、它沒有在等待I/O操作的結果

2、它沒有主動進入等待狀態(也就是wait)

3、沒有被停止

例如：

[root@master ~]# uptime

09:34:05 up 69 days,? 4:00,? 1 user,? load

average: 0.08, 0.02, 0.01

命令輸出的最后內容表示在過去的1、5、15分鐘內運行隊列中的平均進程數量。

一般來說只要每個CPU的當前活動進程數不大于3那么系統的性能就是良好的，如果每個CPU的任務數大于5，那么就表示這臺機器的性能有嚴重問題。

對于上面的例子來說，假設系統有兩個CPU，那么其每個CPU的當前任務數為：0.08/2=0.04，這表示該系統的性能是可以接受的。

這里有個思考問題，就是當CPU是支持超線程的時候，那么這時候是除以物理個數，還是邏輯個數？？？？？

iostat

[root@master ~]# iostat -c 2 10

Linux 2.6.18-194.el5 (master)?? 12/14/2012