各位老铁们,大家好,今天由我来为大家分享服务器维护方案,以及如何维护服务器的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
一、服务器数量比较少,怎么运维比较好
运维人员的工作每天基本上都是在检查问题,枯燥但又重要,要是你的某一个环节出现问题并没有及时发现问题,对于企业来说损失可能非常大,基本上运维人每天的工作我罗列了下,有这几种:
1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作
2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护
3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除
4、提供独立主机或虚拟应用客户产品操作和应用方面的技术支持
5、监视分管的服务器,及时发现问题,并积极解决问题
现在信息化数字时代,单靠人工去检查出现错误几率会很大,而且有的运维人还不只管理两台服务器,像我们公司的运维每人至少要管理30台服务器,这样子单靠人工运维耗费的人工成本和时间是非常大的,所以还是推荐你用运维工具吧,比如云帮手()
1.支持跨云商批量管理服务器
2.兼容*强大,兼容市面基本所有的云商云主机,兼容操作系统;
3.操作简单,可视化界面预览资源、一键修复、一键部署;
4.可以远程登录云主机FTP桌面,处理云主机上的文件;
5.监控和资源还有告警功能,这个是挺好的,不用盯着看;
6.系统修复功能,这个是挺实用也比较必须的;
7.免费使用。总得来说功能还是挺全的,不存在需要又要另外找软件的尴尬。
你好,很高兴回答你这个问题。从运维的角度来讲,服务器的数量少并不意味着我们的运维工作就非常轻松,相反我们更应该重视此阶段的工作。
我们可以从以下几方面来开展我们的运维工作:
1.应用服务器
我们可以从当前服务器中找出至少2个节点装Vsphere虚拟化,建立一个数据中心、集群;如果你的服务器有多网卡和SCSI,还可以做一些更高级的应用,如vmotion、负载均衡、高可用等。当虚拟机或服务器故障,可以实现故障自动转移,有效的避免了单节点的故障,提供服务器的容错率。
我们可以在新建的虚拟机部署Web、API等各种应用,而且虚拟机可以在vCenter图形化界面下统一管理。这一般是中小公司的在服务器方面的解决方案。
当然,我们对docker比较熟悉,可以使用一套docker解决方案,这比Vsphere更能节省一部分资源。当然这个需要的技能要求也比较高,需要我们不断积累。
2.数据库服务器
数据库服务器在此我们单独拿出来,是因为数据库对服务器*能、磁盘IO要求比较高,不太建议使用虚拟机,当然这需要根据业务的实际情况来做选择。数据库我们需要通过一主一从、一主二从的方式实现高可用,来避免数据库单点问题,我们还可以选择合适的proxy来进行读写分离、读负载均衡等。另外还要考虑数据的本地备份、异地备份,来确保数据可恢复。
3.系统监控
当我们在应用服务器和数据库服务器上线一套系统后,我们需要通过监控掌握从服务器硬件、基础状态、应用、数据库等从下到上的运行状态,以便我们能够对告警及时做出响应。考虑到*的及时*,我们需要监控接入多种*渠道,如、钉钉、邮件、短信等。监控的目的是发现问题、解决访问,因此我们需要踏实的做好这一步,才能为我们的业务保驾护航。
好了,其实不管服务器多少,我们都需要扎实的把基础打好,这样才能以不变应万变面对各种情形。希望我的回答能够帮到你。
题主没有详细说明具体应用系统的功能,比如是否单一的Web服务?有没有微服务、分布式、集群化扩展的潜在需求?
通常来说,建议使用云服务自动化运维。云服务已经成为IT技术的核心基础设施,充分利用云服务带来的弹*和分布式优势,赋能自动化运维。
一,自动构建系统
如果需要构建应用,那么就建议配置使用CI/CD持续化集成和自动化部署,比如常用的Jenkins,配置Git代码提交时触发构建,然后自动部署。
二,日志收集处理系统
1,ELK是常见的日志收集管理系统,包括ElasticSearch, LogStash, Kibana三个服务,架构示意图如下:
2,在ELK系统中,Kibana是一个图形化展示工具,配置查询条件,运维人员随时可以搜索指定日志信息,分析处理故障。
三,服务监控
1,云监控CloudMonitor
主流云服务商都将监控功能集成到了基础架构中,以阿里云为例,云监控提供了多种配置,多维度全方位监控。
比如配置CPU使用率到达80%时,自动触发动作,增加服务器实例,同时邮件通知运维人员。
2,应用监控
以监控宝为例,配置服务,选择分布在不同地区和运营商的监测点。当监测点不能正常调用配置的服务时,将收到警告信息,可以选择邮件、短信、电话等通知方式。
四,潜在的系统扩展需求
1,是否集群化部署?需要AutoScaling自动伸缩吗?
小型化和集群化并不冲突。如果采用集群化部署,可以配置触发条件,满足时自动增加或者释放服务器资源。比如当CPU使用率达到75%或者内存占用率达到75%时,根据配置好的服务器和数量,自动触发。
2,是否使用Docker容器技术?
Docker将应用以及依赖打包到一个可移植的镜像中,可以实现虚拟化,有助于快捷高效的交付应用,结合Docker-pose资源编排,快速实现自动部署更新,不再需要常用的Jenkins构建服务器。
机器数比较小的话,你可以用云的服务器,这样可以节省好多钱。找一个专门的运维,还不如让开发自己来搞,因为机器少运维他也应付得过来。现在都在搞云计算了,把你的机器放上阿里云或者腾讯云,你自己维护好很多,包括网络贷款都很容易扩容。上面这个我说到的只是说建议你如果你已经是自己的机器了。我建议你从我下面所说的来搞。
认为的整个过程的话一般分为三个阶段,第一的话是手工阶段,什么东西都是手工搞。
第2个阶段就是脚本阶段了,本来手工搞的东西全部脚本化。
第3个阶段就是平台化了,平台化了之后,所有东西都在页面上完成系统完成,不需要人工来干预,甚至不用运维来搞。
有一些人说既然认为就是最后的一个阶段,但是这个很不成熟。所以我就不说了。
针对你这个机器数少的,你可以手工认为,或者说用脚本认为都没问题。
在合适的阶段做合适的事情就是最好的。所以我建议你手工运维或者脚本运维。
我们项目用的 wgcloud运维监控系统,它前身是开源项目,后来推出的商业版,也有免费版
wgcloud运行很稳定,*能很好,部署和上手容易
wgcloud支持主机各种指标监控(cpu状态/温度,内存状态,磁盘容量/IO,硬盘smart监控,系统负载,网卡流量,硬件系统信息等),数据可视化,进程应用监控,大屏可视化,服务接口检测,DOCKER监控,自动生成网络拓扑图,端口监控,日志文件监控,web SSH(堡垒机),指令下发执行,告警信息推送(邮件钉钉短信等)
可以装虚拟机代替,在同一个局域网情况下
找服务商外包服务,或者网上托管也不贵收费
服务器数量比较少,比如10台服务器,基本可以不设置运维岗位了,后端开发人员或者架构师就能搞定。
我就是那种曾经在创业的小公司待过的开发人员,开发,运维我都干了。
但是想想如何更科学更高效的运维还是很有必要的。
运维的目的
软件系统的运行时环境:即公司的业务产线,靠它创造业务价值,这个是最核心的功能诉求。
实时监控系统:任何时候都要对当前公司的产线的压力一清二楚,有问题功能随时解决,有*能问题及时扩容或者回收资源
降低服务器成本:在业务萎缩的情况下,准确评估哪些资源可以回收,降低服务器的支出
这个是当时我认为的运维的三个主要目的。
运维方案
开发半路出家,当时采用的是shell+python+ansible+jekins+elk的方式
首先,我会及时的更新业务产线的物理架构图,根据架构图来规划服务器的资源使用。
比如多少个web服务,数据库多少,zk,kafka,redis集群怎么分布。
集群部署一般是放在多个服务器上的,这个时候ansible就派上用场了。
jekins主要用来自动发布更新程序已经做定时回收磁盘的任务。
elk主要用来做应用的日志系统和监控告警;可以通过看板随时知道产线的请求数量和并发数量;
以上的运维方案适用于小公司。运维工程师看到了可以补充
搞个zabbix刷
数量少。如果配置好可以虚拟化。然后跑容器
二、服务器运维方案
服务器运维方案是指为保证服务器系统稳定、安全、高效运行而制定的一套管理系统和操作流程。主要包括:服务器硬件运维、服务器软件运维、网络运维、安全管理、监控与*、运维团队管理。
一、服务器硬件运维:
1、定期检查服务器硬件,包括CPU、内存、硬盘、电源等关键部件的运行状态。
2、确保服务器机房的温湿度、通风等环境条件符合要求,以保证服务器正常运行。
3、定期更换服务器部件,如硬盘、内存等,以防止故障发生。
4、监控服务器硬件资源使用情况,及时调整资源分配,确保服务器*能最大化。
二、服务器软件运维:
1、定期检查服务器操作系统、应用软件、安全软件等是否处于最新版本,及时更新补丁。
2、监控服务器系统日志,分析异常情况,及时排除故障。
3、定期备份服务器数据,确保数据安全。
4、针对服务器上运行的关键业务系统,制定专项运维计划,确保业务稳定运行。
三、网络运维:
1、监控网络设备,如防火墙、路由器、*机等,确保网络稳定运行。
2、分析网络流量,优化网络拓扑结构,提高网络*能。
3、制定网络故障应急预案,提高网络故障恢复能力。
四、安全管理:
1、定期检查服务器安全设置,确保防火墙、*检测、访问控制等安全措施得到有效执行。
2、定期进行服务器安全漏洞扫描,及时修复安全隐患。
3、制定服务器安全运维规范,提高服务器安全*。
五、监控与*:
1、搭建服务器监控系统,实时监控服务器硬件、软件、网络等方面的运行状态。
2、设置*阈值,当服务器运行异常时,及时向运维人员发送*信息。
3、确保监控系统数据的准确*和完整*,为运维决策提供依据。
六、运维团队管理:
1、建立运维团队,明确团队成员职责,确保团队协作高效。
2、制定运维人员培训计划,提高运维团队的专业技能。
3、建立运维知识库,积累运维经验,提高运维效率。
三、如何维护服务器
1从基本做起
从基本做起是最保险的方式。你必须将服务器上含有机密数据的区域通通转换成NTFS格式;同理,防*程序也必须按时更新。建议同时在服务器和桌面电脑上安装防*软件。服务器安全维护中这些软件还应该设定成每天自动最新的病*定义文件。服务器安全维护中另外,Exchange Server(邮件服务器)也应该安装防*软件,服务器安全维护中这类软件可扫描所有寄进来的电子邮件,寻找被病*感染的附件,若发现病*,邮件马上会被隔离,减低使用者被感染的机会。
另一个保护网络的好方法是依员工上班时间来限定使用者登录网络的权限。例如,上白天班的员工不该有权限在三更半夜登录网络。
最后,服务器安全维护中存取网络上的任何数据皆须通过密码登录。服务器安全维护中强迫大家在设定密码时,必须混用大小写字母、数字和特殊字符。在Windows NT Server Resource
Kit里就有这样的工具软件。你还应该设定定期更新密码,且密码长度不得少于八个字符。若你已经做了这些措施,但还是担心密码不安全,你可以试试从网络一些*工具,然后测试一下这些密码到底有多安全。
2保护备份
大多数人都没有意识到,备份本身就是一个巨大的安全漏洞,怎么说呢?试想,大多数的备份工作多在晚上10点或11点开始,依数据多寡,备份完成后大概也是夜半时分了。现在,想像一下,现在是凌晨四点,备份工作已经结束。有心人士正好可趁此时偷走备份磁盘,并在自己家中或是你竞争对手办公室里的服务器上恢复。不过,你可以阻止这种事情发生。首先,你可利用密码保护你的磁盘,若你的备份程序支持加密功能,你还可以将数据进行加密。其次,你可以将备份完成的时间定在你早上进办公室的时间,这样的话,即使有人半夜想溜进来偷走磁盘的话也无法了,因为磁盘正在使用中;如果窃贼强行把磁盘拿走,他一样无法读取那些损毁的数据。
3使用RAS的回拨功能
Windows
NT最酷的功能之一就是支持服务器远端存取(RAS),不幸的是,RAS服务器对*来说实在太方便了,他们只需要一个电话号码、一点耐心,然后就能通过RAS进入主机。不过你可以采取一些方法来保护RAS服务器的安全。
你所采用的技术主要端赖于远端存取者的工作方式。如果远端用户经常是从家里或是固定的地方上网,建议你使用回拨功能,它允许远端用户登录后即挂断,然后RAS服务器会拨出预设的电话号码接通用户,因为此一电话号码已经预先在程序中了,*也就没有机会指定服务器回拨的号码了。
另一个办法是限定远端用户只能存取单一服务器。你可以将用户经常使用到的数据复制到RAS服务器的一个特殊共用点上,再将远端用户的登录限制在一台服务器上,而非整个网络。如此一来,即使**主机,他们也只能在单一机器上作怪,间接达到减少破坏的程度。
最后还有一个技巧就是在RAS服务器上使用“另类”网络协议。很都以TCP/IP协议当作RAS协议。利用TCP/IP协议本身的*质与接受程度,如此选择相当合理,但是RAS还支持I*/S*和NetBEUI协议,如果你使用NetBEUI当作RAS协议,*若一时不察铁定会被搞得晕头转向。
考虑工作站的安全问题
在服务器安全的文章里提及工作站安全感觉似乎不太搭边,但是,工作站正是进入服务器的大门,加强工作站的安全能够提高整体网络的安全*。对于初学者,建议在所有工作站上使用Windows
2000。Windows 2000是一个非常安全的操作系统,如果你没有Windows 2000,那至少使用Windows
NT。如此你便能将工作站锁定,若没有权限,一般人将很难取得网络配置信息。
另一个技巧是限制使用者只能从特定工作站登录。还有一招是将工作站当作简易型的终端机(dumb terminal)或者说,智慧型的简易终端机。换言之,工作站上不会存有任何数据或软件,当你将电脑当作dumb terminal使用时,服务器必须执行Windows NT终端服务程序,而且所有应用程序都只在服务器上运作,工作站只能被动接收并显示数据而已。这意味着工作站上只有安装最少的Windows版本,和一份微软Terminal Server Client。这种方法应该是最安全的网络设计方案。
执行最新修补程序
微软内部有一组人力专门检查并修补安全漏洞,这些修补程序(补丁)有时会被收集成service
pack(服务包)发布。服务包通常有两种不同版本:一个任何人都可以使用的40位的版本,另一个是只能在美国和加拿大发行的128位版本。128位的版本使用128位的加密算法,比40位的版本要安全得多。
一个服务包有时得等上好几个月才发行一次,但要是有严重点的漏洞被发现,你当然希望立即进行修补,不想苦等姗姗来迟的服务包。好在你并不需要等待,微软会定期将重要的修补程序发布在它的FTP站上,这些最新修补程序都尚未收录到最新一版的服务包里,我建议你经常去看看最新修补程序,记住,修补程序一定要按时间顺序来使用,若使用错乱的话,可能导致一些文件的版本错误,也可能造成Windows当机。
颁布严格的安全政策
另一个提高安全*的方式就是制定一强有力的安全策略,确保每一个人都了解,并强制执行。若你使用Windows 2000
Server,你可以将部分权限授权给特定代理人,而无须将全部的网管权利交出。即使你核定代理人某些权限,你依然可县制其权限大小,例如无法开设新的使用者帐号,或改变权限等。
防火墙,检查,再检查
最后一个技巧是仔细检查防火墙的设置。防火墙是网络规划中很重要的一部份,因为它能使公司电脑不受外界恶意破坏。
首先,不要公布非必要的IP。你至少要有一个对外的IP,所有的网络通讯都必须经由此。如果你还有DNS注册的Web服务器或是电子邮件服务器,这些IP也要穿过防火墙对外公布。但是,工作站和其他服务器的IP则必须隐藏。
你还可以查看所有的通讯端口,确定不常用的已经全数关闭。例如,TCP/IP port 80是用于HTTP流量,因此不能堵掉这个端口,也许port
81应该永远都用不着吧,所以就应该关掉。你可以在网络上查到每个端口的详细用途。
服务器安全问题是个大议题,你总不希望重要数据遭病*/*损毁,或被人偷走做为不利你的用途,本文介绍了7个重要的安全检查关卡,你不妨试试看。