大家好,今天给各位分享服务器故障及解决方案的一些知识,其中也会对服务器常见故障处理进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!

一、常见服务器故障类型及排查方法总结

四,服务器故障排查方法总结

问题描述:

每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。

查找步骤:

1、查找top检查服务器负载是否有问题

一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了

2、在服务器中查看网站的访问记录

这些访问记录存储在:/home/对应的网站名/aess-logs/对应的网站名

可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。

3、这个时候先对数据库进行重启,对apache进行重启

service mysql restart

service d restart

重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。

4、查找数据库错误日志

首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用

还有一种方法,就是通过ps-ef| grep mysql来查看

或者也可以通过进入mysql,使用select@@basedir as basePath from dual来查看mysql安装目录

我们在第二种查找方法ps-ef| grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析

mysql有以下几种日志

错误日志:-log-err

查询日志:-log

慢查询日志:-log-slow-queries

更新日志:-log-update

二进制日志:-log-bin

以上便是对应的数据库错误日志和慢查询日志的查看方法了

在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。

二、服务器宕机原因及其解决方案

对于广大站长来说,服务器宕机对网站的收录跟排名都是有非常大的影响的,最重要的是宕机会影响网站业务的进行,所以无论不管说是用户还是服务商都不希望服务器出现宕机问题,那假如出现了,我们该如何解决它呢?

服务器宕机是每个服务商都会遇到的问题,一般有以下几种原因:

1.服务器*能

服务器的*能问题有很多,但最多见的应该就是SQL,但我们也不能一概而论,还有别的可能*,例如有些问题就是服务器Bug或错误行为导致的。另外,较差的Schema和索引设计也是较多的出错原因之一。

2.运行环境

服务器故障及解决方案 服务器常见故障处理

如果是这个问题,那么最常见的就是磁盘空间消耗完了。

3.数据丢了或损坏

数据丢失也有很多原因,可能不是用户错误操作,也可能是人为攻击造成的,但一般来说是由drop table错误操作导致,通常出现这个问题都会伴随着缺少可用备份的问题。

4.复制

复制问题一般是由主备数据不一致导致的。

我们了解了这几项宕机原因,那么如何判断或查看服务器宕机原因呢?

(1)查看是否是误操作导致的

(2)查看是否是应用程序导致的

(3)查看是否是应用程序导致内存溢出或者泄露,out of memory导致

(4)查看是否是流量负载过大导致的

(5)查看是否是遭受**攻击导致的

那我们查明是如原因后,我们又该如何去解决问题呢?

1.发现服务器宕机后,及时联系服务商解决相关问题,就算短暂的宕机也可能会造成较大的损失,请大家及时联系自己的服务商。

2.做好提前防范的准备。可以同时运行两个网站空间,备份内容,当一个出现问题,立刻启动另一个。

3.使用一款功能好的宕机监控第一时间智能处理,故障发生时可设置自动切换至备用IP,恢复后将切换回原IP,能够有效提高网站可用*和页面*能。有效规避风险降低成本。

三、服务器常见故障处理

服务器常见故障处理

网络管理员90%的工作往往是诊断和解决各种各样的故障。为了说明诊断网络故障的一般过程,本文例举了几种故障情形,有的是常见的小问题,有的是比较艰巨的挑战。当你遇到类似的问题时,就可以按照本文例子的介绍,先问自己几个简单的问题,逐步隔离问题所在,最后找到真正的问题根源。

故障一、找不到验证密码的域服务器

毫无疑问,你也一定遇到过这样的情形:当你坐在一台工作站之前准备登录网络,Windows却报告说找不到用来验证密码的域服务器。要解决这个故障,首先要确定问题到底出在网络、工作站还是服务器上。从下面几个问题开始:

→哪些地方改变了?最近是否改动过网络,而这些改动可能导致当前的.问题?有没有添加新的服务器、拆除原有的服务器、改动过*机或HUB?有没有添加或减少域控制器、将成员服务器提升为DC(域控制器)或者相反?

→其他工作站也存在类似的问题吗?

→服务器正在运行吗?

经过检查,你发现此前工作站一直顺利地运行,其他工作站没有遇到类似的问题,服务器也正常。根据故障现象,基本上可以确定故障出在工作站本身。接下来要确定工作站的那个地方出了故障,试试下面几个问题:

→工作站能够Ping到服务器吗?

→工作站获得了一个IP吗?

检测表明,工作站能够Ping到服务器,但Ping操作有时超时,这表明工作站和服务器之间只有断断续续的通信。在命令行上执行ipconfig/renew命令,多执行几次,工作站有时会更新IP,有时不会。这是工作站和服务器之间断续通信的*。

现在将问题工作站的网络连接和另一台工作站的对换一下,新工作站在问题工作站的位置上也不能连接网络,而问题工作站却能从另一个网络位置顺利地连接网络。现在已经很清楚:问题工作站所在位置的电缆或Hub出了问题。

拆下故障位置上网络电缆连接Hub的那一端,将它接到另一个Hub上,故障依旧。现在可以肯定电缆就是引起故障的*了。

故障二、Windows服务不能启动

在一台Windows2000服务器上,部分服务设置成不用本地的系统帐户启动。一次重新启动Windows2000服务器之后,发现这些服务没有启动,必须手工打开服务,重新输入密码,然后启动服务。每次重新输入密码,都收到消息说:<用户名字>已被授予作为服务登录的权限。

要解决该故障,首先回答下面几个问题:

→哪些地方改变了?是否有人修改了服务器?

→这个服务以前能够启动吗?

→用户名称和密码正确吗?

查询修改记录发现,该服务器是一个DC,不久之前还是域控制器组织单元(OU,OrganizationalUnit)的成员。在移出该OU之前,这些服务一直能够顺利启动。另外,用来启动这些服务的用户名称和密码都是合法的。进一步研究发现,域控制器OU的成员有一些特殊的权限,其中包括作为服务登录的权限。当出现问题的服务器移出该OU时,服务器失去了那些权限。现在要做的是恢复服务器的权限。

要将权限授予服务器,请按照如下步骤操作:

→在管理控制台(MMC)中打开活动目录用户和计算机管理单元,再打开域控制器OU的“属*”对话框。

→在组策略页中,“默认域控制器策略”,然后“编辑”,打开组策略管理器。

→依次扩展计算机配置/Windows设置/安全设置,再扩展“本地策略”,然后“用户权利指派”。

→在右边的窗格中,右击“作为服务登录”,选择菜单“安全”。

→把用来启动服务的用户帐户加入到策略(图一),完成后“确定”。

;