Linux 60秒性能分析

本文主要参考Netflix的技术博客。

在读Brendan Gregg的BPF Performance Tools，其中提到他和Nefilx性能团队曾经发表的一篇关于性能分析的文章¹，讲述了对一个新Linux系统性能分析的前60秒应该进行哪些步骤。

尽管国内有不少网站已经翻译转载过那篇原始博文，但为了加深自己的印象，还是重新将相关内容转述一下（也算一种重复造轮子吧www）。

简要清单

在60s内，可以通过运行如下10个命令，以对系统资源使用情况和运行进程有一个高层次（high-level）的了解。

  
uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top

uptime

$ uptime 
23:51:26 up 21:31, 1 user, load average: 30.02, 26.43, 19.02

该命令用于快速查看机器的平均负载（load average）。

所谓平均负载，表示等待运行的任务数。在Linux系统中，包括等待运行在CPU上的进程和被不可中断IO（通常为磁盘I/O）所阻断的进程。

输出的3个数字为1分钟、5分钟和15分钟内的平均负载情况。

通过输出的数字能粗略的对负载相对时间的变化情况进行估计。

dmesg | tail

  
$ dmesg | tail
[1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0
[...]
[1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child
[1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, file-rss:0kB
[2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request.  Check SNMP counters.

该步骤输出最近的10条系统信息（如果有的话）。

这些信息中可能包含了导致性能问题的错误，如上面例子中的内存不足问题和TCP丢包问题。

dmesg并非直接和性能相关，有时不会去特意查看dmesg中输出的系统信息。然而原作者特别指出，不要忘记这一步骤，dmesg信息往往值得查看。

vmstat 1

  
$ vmstat 1
procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
34  0    0 200889792  73708 591828    0    0     0     5    6   10 96  1  3  0  0
32  0    0 200889920  73708 591860    0    0     0   592 13284 4282 98  1  1  0  0
32  0    0 200890112  73708 591860    0    0     0     0 9501 2154 99  1  0  0  0
32  0    0 200889568  73712 591856    0    0     0    48 11900 2459 99  0  0  0  0
32  0    0 200890208  73712 591860    0    0     0     0 15898 4840 98  1  1  0  0
^C

mpstat -P ALL 1

  
$ mpstat -P ALL 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)

07:38:49 PM  CPU   %usr  %nice   %sys %iowait   %irq  %soft  %steal  %guest  %gnice  %idle
07:38:50 PM  all  98.47   0.00   0.75    0.00   0.00   0.00    0.00    0.00    0.00   0.78
07:38:50 PM    0  96.04   0.00   2.97    0.00   0.00   0.00    0.00    0.00    0.00   0.99
07:38:50 PM    1  97.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   2.00
07:38:50 PM    2  98.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   1.00
07:38:50 PM    3  96.97   0.00   0.00    0.00   0.00   0.00    0.00    0.00    0.00   3.03
[...]

该命令输出每个CPU的CPU时间详情，有助于发现不同CPU间的不均衡问题。例如单个CPU使用率较高可能是某但线程程序使用了较多CPU导致的。

pidstat 1

  
$ pidstat 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)

41:02 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
41:03 PM     0         9    0.00    0.94    0.00    0.94     1  rcuos/0
41:03 PM     0      4214    5.66    5.66    0.00   11.32    15  mesos-slave
41:03 PM     0      4354    0.94    0.94    0.00    1.89     8  java
41:03 PM     0      6521 1596.23    1.89    0.00 1598.11    27  java
41:03 PM     0      6564 1571.70    7.55    0.00 1579.25    28  java
41:03 PM 60004     60154    0.94    4.72    0.00    5.66     9  pidstat

41:03 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
41:04 PM     0      4214    6.00    2.00    0.00    8.00    15  mesos-slave
41:04 PM     0      6521 1590.00    1.00    0.00 1591.00    27  java
41:04 PM     0      6564 1573.00   10.00    0.00 1583.00    28  java
41:04 PM   108      6718    1.00    0.00    0.00    1.00     0  snmp-pass
41:04 PM 60004     60154    1.00    4.00    0.00    5.00     9  pidstat
^C

pidstat显示每个进程的CPU使用细目，相比于top，pidstat输出的数据不会被刷新走，有助于后续分析数据。

在如上的例子中，2个java程序消耗了大部分的CPU时间，其中每个java程序大约消耗了16个CPU。

iostat -xz 1

  
$ iostat -xz 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          73.96    0.00    3.73    0.03    0.06   22.21

Device:   rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
xvda        0.00     0.23    0.21    0.18     4.52     2.08    34.37     0.00    9.98   13.80    5.42   2.44   0.09
xvdb        0.01     0.00    1.02    8.94   127.97   598.53   145.79     0.00    0.43    1.78    0.28   0.25   0.25
xvdc        0.01     0.00    1.02    8.86   127.79   595.94   146.50     0.00    0.45    1.82    0.30   0.27   0.26
dm-0        0.00     0.00    0.69    2.32    10.47    31.69    28.01     0.01    3.23    0.71    3.98   0.13   0.04
dm-1        0.00     0.00    0.00    0.94     0.01     3.78     8.00     0.33  345.84    0.04  346.81   0.01   0.00
dm-2        0.00     0.00    0.09    0.07     1.35     0.36    22.50     0.00    2.55    0.23    5.62   1.78   0.03
[...]
^C

用于分析块设备（磁盘）的工具，包括工作负载和处理性能。

r/s、w/s、rkB/s、wkB/s：表示每秒读写的次数和kB数，描述了磁盘的工作负载。

await：I/O平均时间（ms），包括排队时间和处理时间，如果该值过高，说明设备饱和度过高或存在设备问题。

avgqu-sz：每个设备的平均请求数，大于1通常表示设备饱和（不过有些设备可以并行处理，特别是多个磁盘构成的虚拟设备）。

%util：设备使用率。这个值显示了每秒钟设备的使用百分比。大于60%通常会导致低性能（也会同时反映在await上）。值达到100%表示设备饱和了。

free -m

$ free -m
             total       used       free     shared    buffers     cached
Mem:        245998      24545     221453         83         59        541
-/+ buffers/cache:      23944     222053
Swap:            0          0          0

sar -n DEV 1

  
$ sar -n DEV 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015     _x86_64_    (32 CPU)

16:48 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
16:49 AM      eth0  18763.00   5032.00  20686.42    478.30      0.00      0.00      0.00      0.00
16:49 AM        lo     14.00     14.00      1.36      1.36      0.00      0.00      0.00      0.00
16:49 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

16:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
16:50 AM      eth0  19763.00   5101.00  21999.10    482.56      0.00      0.00      0.00      0.00
16:50 AM        lo     20.00     20.00      3.25      3.25      0.00      0.00      0.00      0.00
16:50 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
^C

sar -n TCP,ETCP 1

  
$ sar -n TCP,ETCP 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)

17:19 AM  active/s passive/s    iseg/s    oseg/s
17:20 AM      1.00      0.00  10233.00  18846.00

17:19 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
17:20 AM      0.00      0.00      0.00      0.00      0.00

17:20 AM  active/s passive/s    iseg/s    oseg/s
17:21 AM      1.00      0.00   8359.00   6039.00

17:20 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
17:21 AM      0.00      0.00      0.00      0.00      0.00
^C

top

  
$ top
top - 00:15:40 up 21:56,  1 user,  load average: 31.09, 29.87, 29.92
Tasks: 871 total,   1 running, 868 sleeping,   0 stopped,   2 zombie
%Cpu(s): 96.8 us,  0.4 sy,  0.0 ni,  2.7 id,  0.1 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  25190241+total, 24921688 used, 22698073+free,    60448 buffers
KiB Swap:        0 total,        0 used,        0 free.   554208 cached Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 20248 root      20   0  0.227t 0.012t  18748 S  3090  5.2  29812:58 java
  4213 root      20   0 2722544  64640  44232 S  23.5  0.0 233:35.37 mesos-slave
 66128 titancl+  20   0   24344   2332   1172 R   1.0  0.0   0:00.07 top
  5235 root      20   0 38.227g 547004  49996 S   0.7  0.2   2:02.74 java
  4299 root      20   0 20.015g 2.682g  16836 S   0.3  1.1  33:14.42 java
     1 root      20   0   33620   2920   1496 S   0.0  0.0   0:03.82 init
     2 root      20   0       0      0      0 S   0.0  0.0   0:00.02 kthreadd
     3 root      20   0       0      0      0 S   0.0  0.0   0:05.35 ksoftirqd/0
     5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
     6 root      20   0       0      0      0 S   0.0  0.0   0:06.94 kworker/u256:0
     8 root      20   0       0      0      0 S   0.0  0.0   2:38.05 rcu_sched

脚注

Linux Performance Analysis in 60,000 Milliseconds ↩