分类目录归档:服务器

HP DL160 G9无法开机的处理办法

现有一台HP DL160 G9服务器,突然远程登录不上,到设备现场发现,前面板的四个指示灯同时闪烁,四个指示灯分别是系统电源LED指示灯、运行状态LED指示灯、网卡LED指示灯、UID LED指示灯,如下图:

翻阅了一下HP官方的故障排除指南,有以下内容:

故障排除指南也明确写了4个LED指示灯同时闪烁时,说明发生了电源故障。然后更换电源,问题依旧,更换电源背板,还是无法开机,后来定位是主板及PCI-E扩展卡的问题,更换主板及PCI-E扩展卡后可正常开机。

IBM服务器出现Cache data was lost due to an unexpected power-off or reboot during a write operation的处理办法

现有一台IBM X3650 M3服务器,硬件无告警,开启后出现:

Critical Message
Cache data was lost due to an unexpected power-off or reboot during a write operation,but the adapter has recovered.This could be due to memory problems,bad battery,or you may not have a battery installed.Press any key to continue or ‘C’ to load the configuration utility.
Enter Your Import Here:

出现这种现象的原因是阵列卡配备了回写缓存,数据会先写入缓存再写入硬盘,但是因为突然断电、手动强制关机、服务器宕机等等,数据只写入缓存还没写入硬盘,这个时候缓存中的数据可能就丢失了,服务器通电启动后,阵列卡自检发现有未写入的数据就会出现这个报错。

解决的办法就是在Enter Your Input Here处输入字母a再按回车:

然后会提示Critical Message handing completed.Please exit.

按Y再继续。一般如果不是硬件故障,那么阵列卡RAID状态一般都是正常的,但是如果无法引起系统或者操作系统报错,则需要排查下硬件故障。

因为这个问题的出现是因为缓存中的数据丢失,所以可以有以下几个办法来降低缓存数据丢失的问题:
1、将回写模式改成直写模式Write Through
2、加装电池
3、为服务器配备UPS

深信服EDR配置说明

首先,建议采用最新版本测试。

1、EDR测试环境

终端检测响应平台(EDR)是深信服公司提供的一套终端安全解决方案,方案由轻量级的端点安全软件(Agent)和管理平台(MGR)共同组成。

EDR的管理平台支持统一的终端资产管理、终端病毒查杀、终端合规检查,支持微隔离的访问控制策略统一管理,支持对安全事件的一键隔离处置,以及热点事件IOC的全网威胁定位。

端点软件支持防病毒功能、入侵防御功能、防火墙隔离功能、数据信息采集上报、一键处置等。深信服的EDR产品也支持与AC、SIP、AF、SOC、X-central产品的联动协同响应,形成新一代的安全防护体系。

本次我们的测试拓扑如下:

2、EDR配置过程

2.1、服务端配置

本次部署,采用EDR管理平台虚拟机模板直接导入VMWARE中的方式

根据接入终端的数量,对服务器的配置要求也不同,一般终端数在50-500,建议配置4核CPU、4G内存、250G硬盘,终端数在500-2000时,建议配置4核CPU、8G内存、500G硬盘。本次测试采用4核CPU、8G内存、500G硬盘的配置。

导入虚拟机后,将虚拟机网卡接入到相关虚拟交换机下,然后开机,进入系统后,将默认的IP地址10.251.251.251修改为192.168.1.1。

为确保EDR各项功能使用正常,建议管理平台可与以下服务器通信:

(云脑)漏洞补丁相关:https://upd.sangfor.com.cn

(云脑)接入云脑授权:https://auth.sangfor.com.cn

(云脑)云查服务器:https://analysis.sangfor.com.cn

(云脑)云安全计划:https://clt.sangfor.com.cn

(CDN)漏洞补丁、规则、病毒库地址:http://download.sangfor.com.cn

客户端可与管理平台的TCP 443、TCP 8083、TCP 54120通信。

         使用浏览器打开https://192.168.1.1,使用用户名admin,密码admin登录,并修改管理员密码。导入相关测试授权即可。

2.2、客户端配置

在EDR管理平台中,系统管理——终端部署下,下载客户端安装程序。

将EDR客户端安装程序复制到相关终端上,安装程序的文件名不建议修改。

双击安装,安装完成即可。

3、EDR测试效果

3.1、终端资产管理

在EDR管理平台——终端管理,可以看到在线的终端

在终端清点下,可以看到终端的操作系统、安装的应用软件、开放的端口等

3.2、病毒查杀

在威胁检测——终端病毒查杀下,可以配置快速查杀或者全盘查杀

此时在终端上也可以看到EDR客户端开始查杀

等待查杀结束后,可由检测详情:

点击处置即可。

EDR对常驻内存病毒也可查杀,本次测试在个别服务器上就发现有此类病毒

该病毒利用WMI与Powershell方式进行无文件攻击,并常驻内存进行挖矿。

3.3、漏洞扫描

在威胁检测——终端漏洞查补下,可以对终端做漏洞扫描

添加漏洞扫描任务:

扫描完成后,根据策略设置,可以让终端从EDR管理平台或者微软补丁服务器下载补丁(相关设备需可以访问外网)

3.4、基线检查

在威胁检测——终端基线检查下

3.5、微隔离

通过微隔离功能可以对服务器进行防护,只放通必要的业务端口,禁止所有的非必要的端口,提升业务的安全性。通过可视化的方式查看到流量隔离状态。

策略配置也非常简单:

3.6、响应中心

本次测试,在响应中心可以看到个别服务器已失陷,且存在蠕虫病毒、木马病毒、暴力破解的威胁事件。

对于暴力破解,在系统日志中也得到验证。

3.7、安全日志

在安全日志下,可以查看到EDR记录的相关日志信息。

DELL R340服务器配置raid1的办法

现有一台DELL R340服务器,主板集成有PERC S140阵列控制器,配置有两块SATA 2T硬盘,现需要为两块硬盘配置raid1,配置方式如下:
一、按F2进主板BIOS,SATA Settings将模式设置为RAID模式;
二、重启系统按CTRL+R进入阵列控制器界面,配置raid1即可。

对于此款S140阵列控制器,只支持windows 2012R2(不支持AMD平台)、windows 2016、windows 2019和redhat enterprise linux7.3及更高版本、redhat enterprise linux8.0、suse linux enterprise server15及更高版本及suse linux enterprise server12 SP2及更高版本。

只有DELL的第14代服务器(DELL Rx40、DELL Tx40等)才支持PERC S140阵列控制器。

关于S140控制器的更多详细信息,可以参考DELL官网的用户指南,点击进入

Windows 2012R2操作系统安装报错提示插入安装盘的解决办法

现有一台DELL R340服务器,安装Windows 2012R2操作系统时,报错信息 插入Windows 安装盘 1。如下图所示:

对于这种情况,一般是安装光盘、光驱或者U盘启动盘有问题导致,重新刻盘后问题解决。建议有条件的情况下使用管理口安装系统。

处理DELL R720 windows系统中D盘丢失的问题

有一台DELL R720服务器,用户反应重启后系统中D盘丢失了,并且重启前是否正常也未知。

服务器上安装的是windows 2008操作系统,磁盘管理中只能看到C盘1.6T左右,服务器上共有8块900G硬盘。

服务器上没有告警信息,进入idrac,发现前三块硬盘(0槽、1槽、2槽)做了raid5,系统中就是C盘,后面五块硬盘(3槽-7槽)做了raid0,也就是用户说的丢失了的系统中的D盘,在硬件日志中可以看到4槽硬盘出现过告警,并且4槽硬盘有拔插的记录,询问用户,用户说4槽硬盘曾经出现过告警,当时直接更换了。

根据这些信息,得出其实4槽硬盘故障的时候,raid0的数据已经损坏,只是当时用户未注意。

由于目前raid0已经损坏,现在将raid0删除,重新做成raid5,并在操作系统中做GPT分区,将3T多的空间全部划分到D盘。由于用户之前的数据有备份,恢复数据。

DELL R720装完REDHAT系统后不能启动的解决办法

现有一台DELL R720服务器,安装redhat操作系统,安装好后重启自检完提示:
Strike F1 to retry boot,F2 for system setup,F11 for boot manager.

根据这个提示,看起来是没有从硬盘启动,按F2进入主板BIOS,发现启动项第一项是阵列卡,这里是没有问题的。

再进入阵列卡BIOS,这台DELL R720服务器阵列卡型号是PERC H710P,在CTRL MGMT页面,有Select boot device,这里就是启动的虚拟磁盘。

发现这里的启动设备并不是redhat操作系统所在的硬盘上,将select boot device修改为操作系统安装所在的虚拟磁盘,保存退出,重启后可正常进入redhat操作系统的界面。

这个问题有其通用性,即时不是DELL R720这个型号,不是安装redhat操作系统,遇到类似的情况,也可以通过这个思路排查问题。

HP ILO页面报错ERR_SSL_BAD_RECORD_MAC_ALERT的处理办法

现有一台HP DL380 G7服务器,ilo版本是ilo3,ilo口配置好后,无法正常打开ilo页面,ping ilo口是通的,并且telnet 80和443端口也是通的,浏览器打开http://ilo的IP会自动跳转到https://ilo的IP。

根据这个现象判断,网络是没有问题,但是页面无法打开,报错ERR_SSL_BAD_RECORD_MAC_ALERT,这个问题在所有HP服务器上都会出现,使用IE浏览器和google chrome浏览器都会报错。

解决这个问题的方法也很简单,至需要在浏览器internet选项中,不选中使用TLS 1.0、1.1、1.2,保留勾选使用SSL 2.0和3.0,然后即可正常打开ilo页面。

这个问题容易联想到DELL服务器的openmanage页面,有的页面也不能正常显示,更换其他浏览器或者切换浏览急速模式、兼容模式等也会正常打开openmanage页面。

HP PROLIANT服务器ILO3和ILO2的对比说明

HP proliant服务器的ilo功能非常好用。ilo3以ilo2为基础,它们具有很多相同的功能。一般HP G5 G6服务器采用ilo2,G7服务器采用ilo3。

ilo3增加了以下支持:
● 使用 JSON 技术的 Web 2.0界面 
● 改进了 Windows 集成远程控制台 
● 多显示器显示支持 
● 一键式安装 
● 改进了.Net Framework 
● JavaTM 集成远程控制台 
● 更高性能的虚拟介质 
● 传感器群支持 
● 硬件 AES 加密引擎

下面重点说明了 iLO 3 和 iLO 2 的不同之处:

功能ILO 3ILO 2
标准功能    
文本控制台操作系统前操作系统前和操作系统
远程串行控制台(虚拟串行端口)操作系统前和操作系统操作系统前和操作系统
服务器运行状况监视和维护
高级功能    
文本控制台操作系统前和操作系统操作系统前和操作系统
远程控制台是(虚拟KVM)
集成远程控制台
Microsoft® JVM 支持
远程控制台获取按钮
终端服务器集成不适用于1.0
HP 架构目录集成
无架构目录集成
双因素验证
功率调节器报告
虚拟软盘和CD/DVD-ROM
USB钥匙形闪存盘虚拟介质
虚拟文件夹

HP服务器Uncorrectable Machine Check Exception报错处理方法

现有一台HP DL560 G8服务器出现宕机现象,日志中有Uncorrectable Machine Check Exception相关的CPU报错信息,断电重启后即恢复正常。

对于这种相关的报错,可能是BIOS配置引起的问题,建议在BIOS中做以下几点配置:
1、关闭CPU的C-states,所谓C-states,即CPU的省电模式
2、关闭CPU的QPI链路电源管理,QPI链路电源管理,即Intel QPI Link Power Management
3、将电源配置修改为最高性能,即Maxumum Performance