大家好,关于服务器巡检表很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于AIX小型机服务器巡检操作的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!

一、数据中心机房巡检管理该检查什么

那么,一般来说,数据中心机房巡检管理都应该检查什么呢?一般来说,数据中心机房巡检管理要包括:进行服务器的检查,对系统数据库进行备份以及软件系统的检查;进行机房网络设备的检查;进行公司网络状态的检测。此外还要及时查找、发现网络及信息系统设备隐患,排除故障。以下是某公司数据中心机房巡检管理的具体要求,供大家参考。 1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、设备状态异常、网络或应用系统故障,应立即按操作规程执行进行恢复操作。(1)电源、UPS:检查机房供电状况,UPS工作情况、指示状态。(2)服务器:检查服务器是否当机,服务器(磁盘阵列)硬盘灯指示是否正常。(3)机房环境:检查机房空调工作状态,机房温度。(4)网络设备:检查网络设备,包括*机、路由器、防火墙等及其属设备。检查设备工作状态。(5)网络通道:检查内外网络通道状态,包括公司内部局域网、公司与INTERNET、公司至各合作单位的网络通道状态。(6)电话通道:检查电话系统通信及手机通信是否畅通。(7)SQL SERVER2005数据库:检查信息系统数据库服务是否正常。 2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的设备、网络、系统、服务如无法及时恢复时,应立即通知总经理等相关领导,由相关领导协*源进行故障处理。 3.故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。

二、怎么在现场存放巡检记录

有两种方法

1、纸质的,用文件夹夹起来,挂在点检办公室的墙上,相关人员要查询可以去自己查看。等1-3天后将巡检表收集到车间或设备管理人员处保存。

2、电子化信息,上传到云端或服务器,所有有权限的人都可以登陆查询相关巡检资料,非常方便快捷。

三、AIX小型机服务器巡检操作

1、机器型号

# uname-uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt-d H-T PERM//硬件的错误报告

IDENTIFIER TIMES*P T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt-d S-T PERM//软件的错误报告

# errpt-aj*******|more//具体的错误信息

# errpt-d H-T PERM>/tmp/hwerror.log//可以把错误的报告存成一个文件

4、有否给 root用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884"diagela message from p615"

U 2 root Fri May 16 04:07 24/884"diagela message from p615"

>N 3 root Sat May 24 13:08 23/874"diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog等

# lssrc-g cluster/#>lssrc-g cluster

Subsystem Group PID Status

clstrmgrES cluster 16334 active

一般上 hacmp.out的位置:/usr/sbin/cluster/或者/tmp/

然后找到最近的 hacmp.out文件,察看有没有错误信息

6、文件系统检查

# df-k

Filesystem 1024-blocks Free%Used Iused%Iused Mounted on

/dev/hd4 131072 101568 23% 2268 4%/

/dev/hd2 1441792 31256 98% 36056 11%/usr

/dev/hd9var 131072 117048 11% 418 2%/var

看看有没有超过 90%使用率的,建议用户改善

7、逻辑卷有否"stale"的状态

# lsvg-l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

hd6 paging 4 4 1 open/syncd N/A

hd8 jfslog 1 1 1 open/syncd N/A

hd4 jfs 1 1 1 open/syncd/

hd2 jfs 11 11 1 open/syncd/usr

hd9var jfs 1 1 1 open/syncd/var

如果系统还有其他卷组,也需要察看

8、内存*区的使用率是否超过 70%

# lsps-a

Page Space Physical Volume Volume Group Size%Used Active Auto Type

hd6 hdisk0 rootvg 512MB 1 yes yes lv

9、系统*能是否有瓶颈

# topas

# vmstat 1 10

kthr memory page faults cpu

---------------------------------------------------------------

r b *m fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin tout *g-cpu:% user% sys% idle% iowait

0.0 394.0 0.0 0.0 100.0 0.0

Disks:% tm_act Kbps tps Kb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig-a

# stat-in

Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# stat-rn//察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2(Inter):

127/8 127.0.0.1 U 7 142 lo0--

192.168.0.0 192.168.0.11 UHSb 0 0 en0--=>

# vi/etc/hosts//察看 hosts文件有否特殊的定义

# ping****

#lsattr-El i0//路由的检测

authm 65536 Authentication Methods True

hostname h24 Host Name True

gateway Gateway True

route ,,0,172.16.23.81 Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls-l/image.data//看看系统有没有备份的 image文件,记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31/image.data

# lsvg-l rootvg//察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs 1 1 1 open/syncd/

hd2 jfs 11 11 1 open/syncd/usr

服务器巡检表 AIX小型机服务器巡检操作

hd10opt jfs 1 1 1 open/syncd/opt

oraclelv jfs2 80 160 1 open/syncd/oracle

loglv00 jfs2log 1 1 1 open/syncd N/A

testlv jfs 10 20 1 closed/syncd/tmp/test

如何察看数据保护方式 RAID10/RAID5,RAID的Hotspare属*是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属*是否为YES

12、系统 Dump设置是否正确

# sysdumpdev-l

primary/dev/hd6

secondary/dev/sysdumpnull

copy directory/var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump pression OFF

# sysdumpdev P p/dev/hd6 s/dev/sysdumpnull

# sysdumpdev-P-c

13、HACMP测试

#/usr/sbin/cluster/diag/clconfig-v'-tr'// Cluster Verification输出结果无Fail

#/lssrc-g cluster

14、maxpout, minpout系统参数

如果系统中运行了HACMP

smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr-El sys0|grep maxpout

//maxpout用途:对文件指定未决 I/O的最大数目

值:缺省值:0(不检查);范围:0到 n(n应该是 4的倍数加 1)

# lsattr-El sys0|grep minpout

//指定一个基点,在该基点处,已达到 maxpout的程序可以继续写入文件

值:缺省值:0(不检查);范围:0到 n(n应该是 4的倍数,且大于或等于 4小于 maxpout)

15、syncd参数

# grep syncd/sbin/rc.boot//sync()被 syncd调用的间隔时间

nohup/usr/sbin/syncd 10>/dev/null 2>&1&

值:缺省值:60;范围:1到任何正整数

显示: grep syncd/sbin/rc.boot或 vi/sbin/rc.boot

更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill来终止守护程序

syncd并用命令/usr/sbin/syncd interval从命令行重新启动它。

诊断:当 syncd正在运行时,文件的 I/O被阻塞了。

调整:在缺省级别上,这个参数几乎不影响*能。不推荐对这个参数进行更改。为了保持数据完整

*对于 HACMP而使 syncd interval明显缩小,会导致*能下降。

更改命令为:

#vi/sbin/rc.boot

16、aio参数//异步 I/O可调参数

# lsdev-C|grep aio

察看状态是否是 *ailable

# lsattr-El aio0

minservers 1 MINIMUM number of servers True

maxservers 10 MAXIMUM number of servers True

maxreqs 4096 Maximum number of REQUESTS True

kprocprio 39 Server PRIORITY True

autoconfig *ailable STATE to be configured at system restart True

fastpath enable State of fast path True

# smit aio//可以更改参数

17、检查 errdaemon, srcmstr是否正常运行

# ps-ef|grep err

# ps-ef|grep src

18、系统硬件诊断

# diag

-> Diagnostic Routines

-> System Verification

-> All Resources

-> F7或者 Esc+7

19、补丁程序 PTF是否满足要求,当前系统补丁版本

#oslevel-r

5300-04

#instfix-i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg-vp//检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap-ac//运行#snap-ac,生成文件snap+s/n.pax.Z