• 20.2 服务器硬件数据的收集
    • 20.2.1 以系统内置 dmidecode 解析硬件配备
    • 20.2.2 硬件资源的收集与分析
  • 不必加任何的参数,就能够显示出目前主机上面的各个 PCI 接口的设备呢!
    • 20.2.3 了解磁盘的健康状态

    20.2 服务器硬件数据的收集

    “工欲善其事,必先利其器”,这是一句大家耳熟能详的古人名言,在我们的信息设备上面也是一样的啊! 在现在 (2015) 正好是 DDR3 切换到 DDR4 的时间点,假设你的服务器硬件刚刚好内存不太够,想要加内存, 那请教一下,你的主板插槽还够吗?你的内存需要 DDR3 还是 DDR4 呢?你的主机能不能吃到 8G 以上的单条内存? 这就需要检查一下系统啰!不想拆机箱吧?那怎办?用软件去查啦!此外,磁盘会不会出问题?你怎么知道哪一颗磁盘出问题了?这就重要啦!

    20.2.1 以系统内置 dmidecode 解析硬件配备

    系统有个名为 dmidecode 的软件,这个软件挺有趣的,它可以解析 CPU 型号、主板型号与内存相关的型号等等~ 相当的有帮助!尤其是在升级配备上面!现在让我们来查一查鸟哥的虚拟机里头有啥东西吧!

    1. [root@study ~]# dmidecode -t type
    2. 选项与参数:
    3. 详细的 type 项目请 man dmidecode 查询更多的数据,这里仅列出比较常用的项目:
    4. 1 :详细的系统数据,含主板的型号与硬件的基础数据等
    5. 4 CPU 的相关数据,包括倍频、外频、核心数、核心绪数等
    6. 9 :系统的相关插槽格式,包括 PCI, PCI-E 等等的插槽规格说明
    7. 17:每一个内存插槽的规格,若内有内存,则列出该内存的容量与型号
    8. 范例一:秀出整个系统的硬件信息,例如主板型号等等
    9. [root@study ~]# dmidecode -t 1
    10. # dmidecode 2.12
    11. SMBIOS 2.4 present.
    12. Handle 0x0100, DMI type 1, 27 Bytes
    13. System Information
    14. Manufacturer: Red Hat
    15. Product Name: KVM
    16. Version: RHEL 6.6.0 PC
    17. Serial Number: Not Specified
    18. UUID: AA3CB5D1-4F42-45F7-8DBF-575445D3887F
    19. Wake-up Type: Power Switch
    20. SKU Number: Not Specified
    21. Family: Red Hat Enterprise Linux
    22. 范例二:那内存相关的数据呢?
    23. [root@study ~]# dmidecode -t 17
    24. # dmidecode 2.12
    25. SMBIOS 2.4 present.
    26. Handle 0x1100, DMI type 17, 21 Bytes
    27. Memory Device
    28. Array Handle: 0x1000
    29. Error Information Handle: 0x0000
    30. Total Width: 64 bits
    31. Data Width: 64 bits
    32. Size: 3072 MB
    33. Form Factor: DIMM
    34. Set: None
    35. Locator: DIMM 0
    36. Bank Locator: Not Specified
    37. Type: RAM
    38. Type Detail: None

    因为我们的系统是虚拟机,否则的话,你的主板型号、每一只安插的内存容量等等,都会被列出来在上述的画面中喔! 这样可以让你了解系统的所有主要硬件配备为何!

    鸟哥的图示

    Tips 因为某些缘故,鸟哥获得了一部机架式的服务器,不过该服务器就是内存不够。又因为某些缘故有朋友要送 ECC 的低电压内存给鸟哥!太开心了! 不过为了担心内存与主板不相容,所以就使用了 dmidecode 去查主板型号,再到原厂网站查询相关主板规格,这才确认可以使用!感谢各位亲爱的朋友啊!!

    20.2.2 硬件资源的收集与分析

    现在我们知道系统硬件是由操作系统核心所管理的,由第十九章的开机流程分析中,我们也知道 Linux kernel 在开机时就能够侦测主机硬件并载入适当的模块来驱动硬件了。 而核心所侦测到的各项硬件设备,后来就会被记录在 /proc 与 /sys 当中了。 包括 /proc/cpuinfo, /proc/partitions, /proc/interrupts 等等。 更多的 /proc 内容介绍,先回到第十六章的程序管理瞧一瞧先!

    鸟哥的图示

    Tips 其实核心所侦测到的硬件可能并非完全正确喔!因为他仅是“使用最适当的模块来驱动这个硬件”而已, 所以有时候难免会误判啦 (虽然概率非常之低)!那你可能想要以最新最正确的模块来驱动你的硬件, 此时,重新编译核心是一条可以达成的道路。不过,现在的 Linux 系统并没有很建议你一定要重新编译核心就是了。

    那除了直接调用出 /proc 下面的文件内容之外,其实 Linux 有提供几个简单的指令来将核心所侦测到的硬件叫出来的~ 常见的指令有下面这些:

    • gdisk:第七章曾经谈过,可以使用 gdisk -l 将分区表列出;
    • dmesg:第十六章谈过, 观察核心运行过程当中所显示的各项讯息记录;
    • vmstat:第十六章谈过,可分析系统 (CPU/RAM/IO) 目前的状态;
    • lspci:列出整个 PC 系统的 PCI 接口设备!很有用的指令;
    • lsusb:列出目前系统上面各个 USB 端口的状态,与连接的 USB 设备;
    • iostat:与 vmstat 类似,可实时列出整个 CPU 与周边设备的 Input/Output 状态。
      lspci, lsusb, iostat 是本章新谈到的指令,尤其如果你想要知道主板与各周边相关设备时,那个 lspci 真是不可多得的好工具!而如果你想要知道目前 USB 插槽的使用情况以及侦测到的 USB 设备, 那个 lsusb 则好用到爆!至于 iostat 则是一个实时分析软件,与 vmstat 有异曲同工之妙!

    基本上,想要知道你 Linux 主机的硬件配备,最好的方法还是直接拆开机箱去察看上面的信息 (这也是为何第零章会谈计概啊)! 如果环境因素导致您无法直接拆开主机的话,那么直接 lspci 是很棒的一的方法:

    • lspci
      1. [root@study ~]# lspci [-vvn]
        选项与参数:
        -v :显示更多的 PCI 接口设备的详细信息;
        -vv :比 -v 还要更详细的细部信息;
        -n :直接观察 PCI ID 而不是厂商名称

    范例一:查阅您系统内的 PCI 总线相关设备:
    [root@study ~]# lspci
    00:00.0 Host bridge: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
    00:01.0 ISA bridge: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
    00:01.1 IDE interface: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
    00:01.2 USB controller: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
    00:01.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 03)
    00:02.0 VGA compatible controller: Red Hat, Inc. QXL paravirtual graphic card (rev 04)
    00:03.0 Ethernet controller: Red Hat, Inc Virtio network device
    00:04.0 SCSI storage controller: Red Hat, Inc Virtio block device
    00:05.0 RAM memory: Red Hat, Inc Virtio memory balloon
    00:06.0 Audio device: Intel Corporation 82801FB/FBM/FR/FW/FRW (ICH6 Family) High Definition Audio
    Controller (rev 01)
    00:1d.0 USB controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #1 (rev 03)
    00:1d.1 USB controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #2 (rev 03)
    00:1d.2 USB controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #3 (rev 03)
    00:1d.7 USB controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #1 (rev 03)

    不必加任何的参数,就能够显示出目前主机上面的各个 PCI 接口的设备呢!

    不必加上任何选项,就能够显示出目前的硬件配备为何。上面就是鸟哥的测试机所使用的主机配备。 包括使用 Intel 芯片的仿真主板、南桥使用 ICH9 的控制芯片、附挂 QXL 的显卡、使用虚拟化的 Virtio 网卡等等。 您瞧瞧!很清楚,不是嘛。

    如果你还想要了解某个设备的详细信息时,可以加上 -v 或 -vv 来显示更多的信息喔! 举例来说,鸟哥想要知道那个以太网卡更详细的信息时,可以使用如下的选项来处理:

    1. [root@study ~]# lspci -s 00:03.0 -vv

    -s 后面接的那个怪东西每个设备的总线、插槽与相关函数功能啦!那个是我们硬件侦测所得到的数据啰! 你可以对照下面这个文件来了解该串数据的意义:

    • /usr/share/hwdata/pci.ids
      其实那个就是 PCI 的标准 ID 与厂牌名称的对应表啦!此外,刚刚我们使用 lspci 时,其实所有的数据都是由 /proc/bus/pci/ 目录下的数据所取出的呢!了解了吧! ^_^!不过,由于硬件的发展太过迅速,所以你的 pci.ids 文件可能会落伍了~那怎办? 没关系~可以使用下面的方式来线上更新你的对应档:
    1. [root@study ~]# update-pciids
    • lsusb
      刚刚谈到的是 PCI 接口设备,如果是想要知道系统接了多少个 USB 设备呢?那就使用 lsusb 吧!这个指令也是很简单的!
    1. [root@study ~]# lsusb [-t]
    2. 选项与参数:
    3. -t :使用类似树状目录来显示各个 USB 端口的相关性
    4. 范例一:列出目前鸟哥的测试用主机 USB 各端口状态
    5. [root@study ~]# lsusb
    6. Bus 002 Device 002: ID 0627:0001 Adomax Technology Co., Ltd
    7. Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
    8. Bus 002 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub
    9. # 如上所示,鸟哥的主机在 Bus 002 有接了一个设备,
    10. # 该设备的 ID 是 0627:0001,对应的厂商与产品为 Adomax 的设备。

    确实非常清楚吧!其中比较有趣的就属那个 ID 号码与厂商型号对照了!那也是写入在 /usr/share/hwdata/pci.ids 的东西,你也可以自行去查询一下喔!

    • iostat
      刚刚那个 lspci 找到的是目前主机上面的硬件配备,那么整部机器的储存设备, 主要是磁盘对吧!请问,您磁盘由开机到现在,已经存取多少数据呢?这个时候就得要 iostat 这个指令的帮忙了!

    鸟哥的图示

    Tips 默认 CentOS 并没有安装这个软件,因此你必须要先安装他才行!如果你已经有网络了, 那么使用“ yum install sysstat ”先来安装此软件吧!否则无法进行如下的测试喔!

    1. [root@study ~]# iostat [-c|-d] [-k|-m] [-t] [间隔秒数] [侦测次数]
    2. 选项与参数:
    3. -c :仅显示 CPU 的状态;
    4. -d :仅显示储存设备的状态,不可与 -c 一起用;
    5. -k :默认显示的是 block ,这里可以改成 K Bytes 的大小来显示;
    6. -m :与 -k 类似,只是以 MB 的单位来显示结果。
    7. -t :显示日期出来;
    8. 范例一:显示一下目前整个系统的 CPU 与储存设备的状态
    9. [root@study ~]# iostat
    10. Linux 3.10.0-229.el7.x86_64 study.centos.vbird 09/02/2015 _x86_64_ 4 CPU
    11. avg-cpu: %user %nice %system %iowait %steal %idle
    12. 0.08 0.01 0.02 0.00 0.01 99.88
    13. Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
    14. vda 0.46 5.42 3.16 973670 568007
    15. scd0 0.00 0.00 0.00 154 0
    16. sda 0.01 0.03 0.00 4826 0
    17. dm-0 0.23 4.59 3.09 825092 555621
    18. # 瞧!上面数据总共分为上下两部分,上半部显示的是 CPU 的当下信息;
    19. # 下面数据则是显示储存设备包括 /dev/vda 的相关数据,他的数据意义:
    20. # tps :平均每秒钟的传送次数!与数据传输“次数”有关,非容量!
    21. # kB_read/s :开机到现在平均的读取单位;
    22. # kB_wrtn/s :开机到现在平均的写入单位;
    23. # kB_read :开机到现在,总共读出来的文件单位;
    24. # kB_wrtn :开机到现在,总共写入的文件单位;
    25. 范例二:仅针对 vda ,每两秒钟侦测一次,并且共侦测三次储存设备
    26. [root@study ~]# iostat -d 2 3 vda
    27. Linux 3.10.0-229.el7.x86_64 study.centos.vbird 09/02/2015 _x86_64_ 4 CPU
    28. Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
    29. vda 0.46 5.41 3.16 973682 568148
    30. Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
    31. vda 1.00 0.00 0.50 0 1
    32. Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
    33. vda 0.00 0.00 0.00 0 0
    34. # 仔细看一下,如果是有侦测次数的情况,那么第一次显示的是“从开机到现在的数据”,
    35. # 第二次以后所显示的数据则代表两次侦测之间的系统传输值!举例来说,上面的信息中,
    36. # 第二次显示的数据,则是两秒钟内(本案例)系统的总传输量与平均值。

    通过 lspci 及 iostat 可以约略的了解到目前系统的状态还有目前的主机硬件数据呢!

    20.2.3 了解磁盘的健康状态

    其实 Linux server 最重要的就是“数据安全”了!而数据都是放在磁盘当中的,所以啰,无时无刻了解一下你的磁盘健康状况,应该是个好习惯吧! 问题是,你怎么知道你的磁盘是好是坏啊?这时就得要来谈一个 smartd 的服务了!

    SMART 其实是“ Self-Monitoring, Analysis and Reporting Technology System ”的缩写,主要用来监测目前常见的 ATA 与 SCSI 界面的磁盘, 只是,要被监测的磁盘也必须要支持 SMART 的协定才行!否则 smartd 就无法去下达指令,让磁盘进行自我健康检查~ 比较可惜的是,我们虚拟机的磁盘格式并不支持 smartd,所以无法用来作为测试!不过刚刚好鸟哥还有另外一颗用作 IDE 界面的 2G 磁盘, 这个就能够用来作为测试了! (/dev/sda)!

    smartd 提供一只指令名为 smartctl,这个指令功能非常多!不过我们下面只想要介绍数个基本的操作,让各位了解一下如何确认你的磁盘是好是坏!

    1. # 1\. 用 smartctl 来显示完整的 /dev/sda 的信息
    2. [root@study ~]# smartctl -a /dev/sda
    3. smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-229.el7.x86_64] local build
    4. Copyright C 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
    5. # 首先来输出一下这部磁盘的整体信息状况!包括制造商、序号、格式、SMART 支持度等等!
    6. === START OF INFORMATION SECTION ===
    7. Device Model: QEMU HARDDISK
    8. Serial Number: QM00002
    9. Firmware Version: 0.12.1
    10. User Capacity: 2,148,073,472 Bytes [2.14 GB]
    11. Sector Size: 512 Bytes logical/physical
    12. Device is: Not in smartctl database [for details use: -P showall]
    13. ATA Version is: ATA/ATAPI-7, ATA/ATAPI-5 published, ANSI NCITS 340-2000
    14. Local Time is: Wed Sep 2 18:10:38 2015 CST
    15. SMART support is: Available - device has SMART capability.
    16. SMART support is: Enabled
    17. === START OF READ SMART DATA SECTION ===
    18. SMART overall-health self-assessment test result: PASSED
    19. # 接下来则是一堆基础说明!鸟哥这里先略过这段数据喔!
    20. General SMART Values:
    21. Offline data collection status: 0x82 Offline data collection activity
    22. was completed without error.
    23. Auto Offline Data Collection: Enabled.
    24. .....(中间省略).....
    25. # 再来则是有没有曾经发生过磁盘错乱的问题登录!
    26. SMART Error Log Version: 1
    27. No Errors Logged
    28. # 当你下达过磁盘自我检测的过程,就会被记录在这里了!
    29. SMART Self-test log structure revision number 1
    30. Num Test_Description Status Remaining LifeTimehours LBA_of_first_error
    31. # 1 Short offline Completed without error 00% 4660 -
    32. # 2 Short offline Completed without error 00% 4660 -
    33. # 2\. 命令磁盘进行一次自我检测的动作,然后再次观察磁盘状态!
    34. [root@study ~]# smartctl -t short /dev/sda
    35. [root@study ~]# smartctl -a /dev/sda
    36. .....(前面省略).....
    37. # 下面会多出一个第三笔的测试信息!看一下 Status 的状态,没有问题就是好消息!
    38. SMART Self-test log structure revision number 1
    39. Num Test_Description Status Remaining LifeTimehours LBA_of_first_error
    40. # 1 Short offline Completed without error 00% 4660 -
    41. # 2 Short offline Completed without error 00% 4660 -
    42. # 3 Short offline Completed without error 00% 4660 -

    不过要特别强调的是,因为进行磁盘自我检查时,可能磁盘的 I/O 状态会比较频繁,因此不建议在系统忙碌的时候进行喔! 否则系统的性能是可能会被影响的哩!要注意!要注意!

    原文: https://wizardforcel.gitbooks.io/vbird-linux-basic-4e/content/175.html