大家好,关于服务器巡检表很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于AIX小型机服务器巡检操作的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
一、数据中心机房巡检管理该检查什么
那么,一般来说,数据中心机房巡检管理都应该检查什么呢?一般来说,数据中心机房巡检管理要包括:进行服务器的检查,对系统数据库进行备份以及软件系统的检查;进行机房网络设备的检查;进行公司网络状态的检测。此外还要及时查找、发现网络及信息系统设备隐患,排除故障。以下是某公司数据中心机房巡检管理的具体要求,供大家参考。 1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、设备状态异常、网络或应用系统故障,应立即按操作规程执行进行恢复操作。(1)电源、UPS:检查机房供电状况,UPS工作情况、指示状态。(2)服务器:检查服务器是否当机,服务器(磁盘阵列)硬盘灯指示是否正常。(3)机房环境:检查机房空调工作状态,机房温度。(4)网络设备:检查网络设备,包括*机、路由器、防火墙等及其属设备。检查设备工作状态。(5)网络通道:检查内外网络通道状态,包括公司内部局域网、公司与INTERNET、公司至各合作单位的网络通道状态。(6)电话通道:检查电话系统通信及手机通信是否畅通。(7)SQL SERVER2005数据库:检查信息系统数据库服务是否正常。 2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的设备、网络、系统、服务如无法及时恢复时,应立即通知总经理等相关领导,由相关领导协*源进行故障处理。 3.故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。
二、怎么在现场存放巡检记录
有两种方法
1、纸质的,用文件夹夹起来,挂在点检办公室的墙上,相关人员要查询可以去自己查看。等1-3天后将巡检表收集到车间或设备管理人员处保存。
2、电子化信息,上传到云端或服务器,所有有权限的人都可以登陆查询相关巡检资料,非常方便快捷。
三、AIX小型机服务器巡检操作
1、机器型号
# uname-uM
IBM,7029-6E3 IBM,01100550A
2、检查系统硬件设备故障灯是否有亮
3、系统错误报告
# errpt-d H-T PERM//硬件的错误报告
IDENTIFIER TIMES*P T C RESOURCE_NAME DESCRIPTION
BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR
BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR
# errpt-d S-T PERM//软件的错误报告
# errpt-aj*******|more//具体的错误信息
# errpt-d H-T PERM>/tmp/hwerror.log//可以把错误的报告存成一个文件
4、有否给 root用户的错误报告
Mail [5.2 UCB] [AIX 5.X] Type? for help.
"/var/spool/mail/root": 5 messages 3 new 5 unread
U 1 root Thu May 15 09:53 24/884"diagela message from p615"
U 2 root Fri May 16 04:07 24/884"diagela message from p615"
>N 3 root Sat May 24 13:08 23/874"diagela message from p615"
5、检查 hacmp.out, smit.log, bootlog等
# lssrc-g cluster/#>lssrc-g cluster
Subsystem Group PID Status
clstrmgrES cluster 16334 active
一般上 hacmp.out的位置:/usr/sbin/cluster/或者/tmp/
然后找到最近的 hacmp.out文件,察看有没有错误信息
6、文件系统检查
# df-k
Filesystem 1024-blocks Free%Used Iused%Iused Mounted on
/dev/hd4 131072 101568 23% 2268 4%/
/dev/hd2 1441792 31256 98% 36056 11%/usr
/dev/hd9var 131072 117048 11% 418 2%/var
看看有没有超过 90%使用率的,建议用户改善
7、逻辑卷有否"stale"的状态
# lsvg-l rootvg
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
hd6 paging 4 4 1 open/syncd N/A
hd8 jfslog 1 1 1 open/syncd N/A
hd4 jfs 1 1 1 open/syncd/
hd2 jfs 11 11 1 open/syncd/usr
hd9var jfs 1 1 1 open/syncd/var
如果系统还有其他卷组,也需要察看
8、内存*区的使用率是否超过 70%
# lsps-a
Page Space Physical Volume Volume Group Size%Used Active Auto Type
hd6 hdisk0 rootvg 512MB 1 yes yes lv
9、系统*能是否有瓶颈
# topas
# vmstat 1 10
kthr memory page faults cpu
---------------------------------------------------------------
r b *m fre re pi po fr sr cy in sy cs us sy id wa
0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0
0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0
0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0
# iostat 1 10
tty: tin tout *g-cpu:% user% sys% idle% iowait
0.0 394.0 0.0 0.0 100.0 0.0
Disks:% tm_act Kbps tps Kb_read Kb_wrtn
hdisk0 0.0 0.0 0.0 0 0
hdisk1 0.0 0.0 0.0 0 0
cd0 0.0 0.0 0.0 0 0
10、网络与通讯检查
# ifconfig-a
# stat-in
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0
en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0
lo0 16896 link#1 267 0 413 0 0
lo0 16896 127 127.0.0.1 267 0 413 0 0
# stat-rn//察看路由情况
Routing tables
Destination Gateway Flags Refs Use If Exp Groups
Route Tree for Protocol Family 2(Inter):
127/8 127.0.0.1 U 7 142 lo0--
192.168.0.0 192.168.0.11 UHSb 0 0 en0--=>
# vi/etc/hosts//察看 hosts文件有否特殊的定义
# ping****
#lsattr-El i0//路由的检测
authm 65536 Authentication Methods True
hostname h24 Host Name True
gateway Gateway True
route ,,0,172.16.23.81 Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
11、有否符合要求的系统备份
第一次去可以先询问客户关于备份的策略
# ls-l/image.data//看看系统有没有备份的 image文件,记录最后备份日期
-rw-r--r-- 1 root system 9600 May 19 17:31/image.data
# lsvg-l rootvg//察看有否符合要求的数据备份和保护
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd4 jfs 1 1 1 open/syncd/
hd2 jfs 11 11 1 open/syncd/usr
hd10opt jfs 1 1 1 open/syncd/opt
oraclelv jfs2 80 160 1 open/syncd/oracle
loglv00 jfs2log 1 1 1 open/syncd N/A
testlv jfs 10 20 1 closed/syncd/tmp/test
如何察看数据保护方式 RAID10/RAID5,RAID的Hotspare属*是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属*是否为YES
12、系统 Dump设置是否正确
# sysdumpdev-l
primary/dev/hd6
secondary/dev/sysdumpnull
copy directory/var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump pression OFF
# sysdumpdev P p/dev/hd6 s/dev/sysdumpnull
# sysdumpdev-P-c
13、HACMP测试
#/usr/sbin/cluster/diag/clconfig-v'-tr'// Cluster Verification输出结果无Fail
#/lssrc-g cluster
14、maxpout, minpout系统参数
如果系统中运行了HACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24
# lsattr-El sys0|grep maxpout
//maxpout用途:对文件指定未决 I/O的最大数目
值:缺省值:0(不检查);范围:0到 n(n应该是 4的倍数加 1)
# lsattr-El sys0|grep minpout
//指定一个基点,在该基点处,已达到 maxpout的程序可以继续写入文件
值:缺省值:0(不检查);范围:0到 n(n应该是 4的倍数,且大于或等于 4小于 maxpout)
15、syncd参数
# grep syncd/sbin/rc.boot//sync()被 syncd调用的间隔时间
nohup/usr/sbin/syncd 10>/dev/null 2>&1&
值:缺省值:60;范围:1到任何正整数
显示: grep syncd/sbin/rc.boot或 vi/sbin/rc.boot
更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill来终止守护程序
syncd并用命令/usr/sbin/syncd interval从命令行重新启动它。
诊断:当 syncd正在运行时,文件的 I/O被阻塞了。
调整:在缺省级别上,这个参数几乎不影响*能。不推荐对这个参数进行更改。为了保持数据完整
*对于 HACMP而使 syncd interval明显缩小,会导致*能下降。
更改命令为:
#vi/sbin/rc.boot
16、aio参数//异步 I/O可调参数
# lsdev-C|grep aio
察看状态是否是 *ailable
# lsattr-El aio0
minservers 1 MINIMUM number of servers True
maxservers 10 MAXIMUM number of servers True
maxreqs 4096 Maximum number of REQUESTS True
kprocprio 39 Server PRIORITY True
autoconfig *ailable STATE to be configured at system restart True
fastpath enable State of fast path True
# smit aio//可以更改参数
17、检查 errdaemon, srcmstr是否正常运行
# ps-ef|grep err
# ps-ef|grep src
18、系统硬件诊断
# diag
-> Diagnostic Routines
-> System Verification
-> All Resources
-> F7或者 Esc+7
19、补丁程序 PTF是否满足要求,当前系统补丁版本
#oslevel-r
5300-04
#instfix-i|grep
All filesets for 5.3.0.0_AIX_ML were found.
All filesets for 5300-01_AIX_ML were found.
All filesets for 5300-02_AIX_ML were found.
All filesets for 5300-03_AIX_ML were found.
All filesets for 5300-04_AIX_ML were found.
All filesets for 5300-05_AIX_ML were found.
# lscfg-vp//检查所有设备的微码
20、收集系统信息放到/tmp/ibmsupt
# snap-ac//运行#snap-ac,生成文件snap+s/n.pax.Z