Linux CPU使用率

xiangchaobin 发布于2019-05-29 19:20 / 873人阅读

摘要：本人不是内核专家，关于软中断的部分请参考和虚拟机有关，当系统运行在虚拟机中时，当前虚拟机就会和宿主机以及其它的虚拟机共享，就表示当前虚拟机在等待为它服务的时间。

在Linux下面，可以通过top命令看到CPU的负载情况，其输出大概如下（只摘录CPU部分）：

top - 01:24:41 up 6 min,  2 users,  load average: 0.00, 0.03, 0.00
%Cpu(s):  2.5 us,  1.8 sy,  3.1 ni, 90.5 id,  1.7 wa,  0.0 hi,  0.4 si,  0.0 st

这里的load average以及缩写的us、sy、ni、id、wa、hi、si、st都是些什么意思呢？这些值在一个什么样的区间比较合理呢？如果值超过了合理区间，应该怎么处理呢？这篇将来聊聊这些问题。

load average

load average代表CPU的平均负载值，上面示例中的load average: 0.00, 0.03, 0.00分别表示当前CPU在1分钟、5分钟和15分钟内的平均负载。这些负载值是怎么来的呢？

这些数据来自于文件/proc/loadavg，内核会负责统计出这些数据。

top和uptime命令显示的内容就来自于这个文件，那么这里所谓的平均负载是个什么概念？根据proc的帮助文件可知，这里的值就是单位时间内处于运行状态以及等待disk I/O状态的平均job数量。这里的运行状态和job都是内核的概念，这里简单澄清一下：

对内核来说，进程和线程都是job

job处于运行状态指job处于内核的运行队列中，正在或等待被CPU调度（用户空间的进程正在运行不代表需要被CPU调度，有可能在等待I/O，也有可能在sleep等等）

因为某一刻（瞬间）等待调度的进程多少并不能反映系统的整体压力，所以这里取了1,5和15分钟的平均值。

那么这个值的大小反映系统什么样的一个压力状态呢？这里以单核CPU为例

小于1：说明平均每次只有不到一个job在忙，对于单核的CPU来说，完全能处理过来

等于1：说明平均每次刚好有一个job在忙，对于单核的CPU来说，刚好能处理过来

大于1：说明平均每次有多于一个job在忙，对于单核的CPU来说，由于一次只能处理一个任务，所以肯定有任务在等待，说明系统负载较大，调度不过来，有job需要等待

从上面可以看出，一旦大于1，就说明job得不到及时调度，系统性能将受影响。对于多核来说，由于一次可以调度多个job，所以大于1不一定有问题，以4核CPU为例，该值大于4才说明CPU忙不过来。

那这个平均负载保持在多少比较合适呢？其实没有一个标准值，但一般的做法是预留一定的空间来应对系统负载的波动，建议控制在“0.7*核数”以内，比如4核，那么0.7*4=2.8比较合适，一旦超过这个值，需要分析原因并着手解决。

%Cpu(s)

load average通过统计等待运行的平均job数量来推断CPU的繁忙程度，而%Cpu(s)则直接统计CPU处于不同状态的时间，比上面的load average更直观，所以在实际上也被使用的更多。

总体来说，CPU会处于下面三种状态中的一种：

Idle：处于空闲状态，没有任务需要调度

User space：正在运行user space的代码（处于用户态）

Kernel：正在运行内核的代码（处于内核态）

对上面这三种状态，内核又进一步细分为很多状态，这里以上面输出的8种状态为例进行说明：

2.5 us ：表示CPU有2.5%的时间在运行用户态代码（即在运行用户态程序）

1.8 sy ：表示CPU有1.8%的时间在运行内核态代码。内核负责管理系统的所有进程和硬件资源，所有的内核代码都运行在内核态，当用户态进程需要访问硬件资源时，如分配内存，读写I/O等，也需要通过系统调用进入内核态运行内核代码。%sy高说明内核占用太多资源，或者用户进程发起了太多的系统调用。

3.1 ni ：表示CPU有3.1%的时间在运行niceness不为0的进程代码。默认情况下，进程的niceness值都为0，但可以通过命令nice来启动一个进程并指定其niceness值，niceness的取值范围是-20到19，值越小，表示优先级越高，越优先被内核调度。

90.5 id ：表示CPU有90.5%的时间处于空闲状态

1.7 wa ：表示CPU有1.7%的时间处于I/O等待状态。通常情况下，当CPU遇到一个I/O操作时，会先触发I/O操作，然后去干别的，等I/O操作完成后，CPU再接着继续工作，但如果这时系统比较空闲，CPU没有别的事情可以做，那么CPU将处于等待状态，这种处于等待状态的时间将会被统计进I/O wait，也就是说CPU处于I/O wait状态即CPU闲着没事干在等I/O操作结束，和idle几乎是一样的。这个值高说明CPU闲且I/O操作多或者I/O操作慢，但低并不能说明没有I/O操作或者I/O操作快，有可能是CPU在忙别的，所以这只是一个参考值，需要和其他的统计项一起来分析。

0.0 hi & 0.4 si ：　这两个值反映了CPU有多少时间花在了中断处理上，hi（hardware interrupts）是硬件中断，si(softirqs)是软件中断。硬件中断一般由I/O设备引起，如网卡、磁盘等，发生硬件中断后，CPU需要立即处理，当硬件中断中需要处理的事情很多时，内核会生成相应的软中断，然后将耗时且不需要立即处理完成的操作放在软中断中执行，比如当网卡收到网络包时，需要CPU立即把数据拷贝到内存中去，因为网卡自带的缓存较小，如果不及时处理的话后面的数据包就进不来，导致丢包，当数据拷贝到内存中之后，就不需要那么着急的处理了，这时候可以将处理数据包（协议栈）的代码放在软中断中执行。本人不是内核专家，关于软中断的部分请参考Understanding the Linux Kernel, 3rd Edition

0.0 st　： %st和虚拟机有关，当系统运行在虚拟机中时，当前虚拟机就会和宿主机以及其它的虚拟机共享CPU，%st就表示当前虚拟机在等待CPU为它服务的时间。该值越大，表示物理CPU被宿主机和其它虚拟机占用的时间越长，导致当前虚拟机得不到充足的CPU资源。如果%st长时间大于0，说明CPU资源得不到满足，这时可以考虑将虚拟机移到其它机器上，或者减少当前机器运行的虚拟机数量。

上面这些统计项的总和等于100%，除了%idle之外，其它的任何一项数值过高都代表系统有问题，需要具体问题具体分析。

问题处理

%us过高 ：表示有用户态进程占用了过多的CPU，通过top命令可以很清楚的看到是哪个进程，如果这不是预期的行为，可以通过kill命令杀死相应的进程或者重启它

%sy过高 ：如果只是偶尔过高的话，不用担心，但如果是持续走高的话，就需要重视，有可能是某些进程的系统调用太频繁，比如进程不停的往控制台输出日志，但如果用户态的进程都没有问题，那可能是内核里面的代码出现了问题，尤其是代码写的不好的驱动模块

%ni过高 ：说明有人用nice程序运行了比较耗CPU的进程。如果niceness值大于0的话，就没什么好担心的，因为它的优先级比默认优先级要低，不会影响CPU性能，但最好还是确认一下该进程不会抢占系统的其它资源，如内存、磁盘I/O等，避免对系统整体性能造成影响。如果niceness值小于0的话，表示该进程优先级高且占用CPU资源多，需要确保该进程占用的CPU资源是符合预期的，如果不是，可以用top命令把它找出来并kill掉或者重启。

%wa过高 ：意味着系统中有进程在做大量的I/O操作，或者在读写速度比较慢的I/O设备，比如频繁的读写磁盘，这时可以通过iotop命令来查看是哪些进程占I/O，然后再针对不同的进程做相应的处理；还有一种情况就是系统在频繁的使用交换分区，这时需要解决的就是内存的问题，而不是I/O的问题。

%hi或者%si过高 ： %hi过高一般是硬件出问题了，%si过高一般是内核里面的代码出问题了

%st 过高 ：正如上面介绍介绍的那样，%st过高表示当前虚拟机得不到足够的CPU资源。这时可以考虑将当前虚拟机搬迁到其它的主机上，或者想办法降低当前主机的负载，比如关掉一些其它的虚拟机。

结束语

load average和%Cpu(s)以不同的方式给出了当前主机的CPU负载情况，通过%Cpu(s)我们可以看到系统当前的实时负载，现在很多监控系统每隔一段时间都会采集一次%Cpu(s)，然后存储起来以图形的方式展示出来，这样就能很直观的看到CPU负载的变化，当然如果没有这样的监控系统的话，通过load average也能大概的知道最近一段时间内的平均负载（最长15分钟）。

参考

Understanding the Load Average on Linux and Other Unix-like Systems

Understanding Linux CPU Load

Understanding Linux CPU stats

专线服务私有云获取CPU使用率服务器cpu使用率阿里云服务器cpu使用率过高服务器cpu占用率

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/9748.html

深入理解 Linux Cgroup 系列（一）：基本概念

摘要：原文链接深入理解系列一基本概念是的一项功能它是在一个系统中运行的层级制进程组，你可对其进行资源分配如时间系统内存网络带宽或者这些资源的组合。原文链接：深入理解 Linux Cgroup 系列（一）：基本概念 Cgroup 是 Linux kernel 的一项功能：它是在一个系统中运行的层级制进程组，你可对其进行资源分配（如 CPU 时间、系统内存、网络带宽或者这些资源的组合）。通过使用 ...

yuanzhanghu 2019-05-23 16:24 评论0 收藏0
Linux Cgroup系列（01）：Cgroup概述

摘要：一般情况下不会用到这个功能，一但最开始关联好了之后，就不会去重新修改它，也即我们一般不会去修改给我们设置好的和树的关联关系。 cgroup和namespace类似，也是将进程进行分组，但它的目的和namespace不一样，namespace是为了隔离进程组之间的资源，而cgroup是为了对一组进程进行统一的资源监控和限制。 cgroup分v1和v2两个版本，v1实现较早，功能比较多，但...

zorro 2019-05-29 18:46 评论0 收藏0
一文掌握 Linux 性能分析之 CPU 篇

摘要：平常工作会涉及到一些性能分析的问题，因此决定总结一下常用的一些性能分析手段，仅供参考。说到性能分析，基本上就是内存磁盘以及网络这几个部分，本文先来看这个部分。基础信息进行性能分析之前，首先得知道有哪些信息，可以通过以下方法查看配置信息。 PS：欢迎大家关注我的公众号：CloudDeveloper(ID: cloud_dev)，专注技术分享，努力打造干货分享平台，二维码在文末可以扫。平...

smallStone 2019-08-08 13:41 评论0 收藏0
linux系统资源监控命令

摘要：是一个相当全面的性能分析工具，通过它可以观察系统的进程状态内存使用情况虚拟内存的使用情况磁盘的中断上下文切换的使用情况等性能信息，建议熟练掌握此命令。虚拟内存使用情况单位。在一般情况下不显示与服务器进程相关联的套接字。查看系统发行版 root@cf0c6032ba2f:/# lsb_release -a No LSB modules are available. Distributo...

wapeyang 2019-05-29 19:10 评论0 收藏0
Linux 性能诊断——平均负载 Load 问题

摘要：利用率与平衡负载从角度来说，只是反映单位时间内占用的进程数量，而利用率与进程数量没有直接关系，我们可以使用命令查看的利用率，有以下几个指标表示用户空间程序的使用率没有通过调度表示系统空间的使用率，主要是内核程序。前言有一回面试，面试官提了一个问题，cpu 使用率不高，但是 Load (平均负载) 很高，你如何查找问题？当时我不明白 Load 的意思，面试官解释说这个指标反映不可中...

leo108 2019-08-08 13:41 评论0 收藏0