现有一台HP DL160 G9服务器,突然远程登录不上,到设备现场发现,前面板的四个指示灯同时闪烁,四个指示灯分别是系统电源LED指示灯、运行状态LED指示灯、网卡LED指示灯、UID LED指示灯,如下图:
翻阅了一下HP官方的故障排除指南,有以下内容:
故障排除指南也明确写了4个LED指示灯同时闪烁时,说明发生了电源故障。然后更换电源,问题依旧,更换电源背板,还是无法开机,后来定位是主板及PCI-E扩展卡的问题,更换主板及PCI-E扩展卡后可正常开机。
现有一台HP DL160 G9服务器,突然远程登录不上,到设备现场发现,前面板的四个指示灯同时闪烁,四个指示灯分别是系统电源LED指示灯、运行状态LED指示灯、网卡LED指示灯、UID LED指示灯,如下图:
翻阅了一下HP官方的故障排除指南,有以下内容:
故障排除指南也明确写了4个LED指示灯同时闪烁时,说明发生了电源故障。然后更换电源,问题依旧,更换电源背板,还是无法开机,后来定位是主板及PCI-E扩展卡的问题,更换主板及PCI-E扩展卡后可正常开机。
现有一台IBM X3650 M3服务器,硬件无告警,开启后出现:
Critical Message
Cache data was lost due to an unexpected power-off or reboot during a write operation,but the adapter has recovered.This could be due to memory problems,bad battery,or you may not have a battery installed.Press any key to continue or ‘C’ to load the configuration utility.
Enter Your Import Here:
出现这种现象的原因是阵列卡配备了回写缓存,数据会先写入缓存再写入硬盘,但是因为突然断电、手动强制关机、服务器宕机等等,数据只写入缓存还没写入硬盘,这个时候缓存中的数据可能就丢失了,服务器通电启动后,阵列卡自检发现有未写入的数据就会出现这个报错。
解决的办法就是在Enter Your Input Here处输入字母a再按回车:
然后会提示Critical Message handing completed.Please exit.
按Y再继续。一般如果不是硬件故障,那么阵列卡RAID状态一般都是正常的,但是如果无法引起系统或者操作系统报错,则需要排查下硬件故障。
因为这个问题的出现是因为缓存中的数据丢失,所以可以有以下几个办法来降低缓存数据丢失的问题:
1、将回写模式改成直写模式Write Through
2、加装电池
3、为服务器配备UPS
首先,建议采用最新版本测试。
终端检测响应平台(EDR)是深信服公司提供的一套终端安全解决方案,方案由轻量级的端点安全软件(Agent)和管理平台(MGR)共同组成。
EDR的管理平台支持统一的终端资产管理、终端病毒查杀、终端合规检查,支持微隔离的访问控制策略统一管理,支持对安全事件的一键隔离处置,以及热点事件IOC的全网威胁定位。
端点软件支持防病毒功能、入侵防御功能、防火墙隔离功能、数据信息采集上报、一键处置等。深信服的EDR产品也支持与AC、SIP、AF、SOC、X-central产品的联动协同响应,形成新一代的安全防护体系。
本次我们的测试拓扑如下:
本次部署,采用EDR管理平台虚拟机模板直接导入VMWARE中的方式
根据接入终端的数量,对服务器的配置要求也不同,一般终端数在50-500,建议配置4核CPU、4G内存、250G硬盘,终端数在500-2000时,建议配置4核CPU、8G内存、500G硬盘。本次测试采用4核CPU、8G内存、500G硬盘的配置。
导入虚拟机后,将虚拟机网卡接入到相关虚拟交换机下,然后开机,进入系统后,将默认的IP地址10.251.251.251修改为192.168.1.1。
为确保EDR各项功能使用正常,建议管理平台可与以下服务器通信:
(云脑)漏洞补丁相关:https://upd.sangfor.com.cn
(云脑)接入云脑授权:https://auth.sangfor.com.cn
(云脑)云查服务器:https://analysis.sangfor.com.cn
(云脑)云安全计划:https://clt.sangfor.com.cn
(CDN)漏洞补丁、规则、病毒库地址:http://download.sangfor.com.cn
客户端可与管理平台的TCP 443、TCP 8083、TCP 54120通信。
使用浏览器打开https://192.168.1.1,使用用户名admin,密码admin登录,并修改管理员密码。导入相关测试授权即可。
在EDR管理平台中,系统管理——终端部署下,下载客户端安装程序。
将EDR客户端安装程序复制到相关终端上,安装程序的文件名不建议修改。
双击安装,安装完成即可。
在EDR管理平台——终端管理,可以看到在线的终端
在终端清点下,可以看到终端的操作系统、安装的应用软件、开放的端口等
在威胁检测——终端病毒查杀下,可以配置快速查杀或者全盘查杀
此时在终端上也可以看到EDR客户端开始查杀
等待查杀结束后,可由检测详情:
点击处置即可。
EDR对常驻内存病毒也可查杀,本次测试在个别服务器上就发现有此类病毒
该病毒利用WMI与Powershell方式进行无文件攻击,并常驻内存进行挖矿。
在威胁检测——终端漏洞查补下,可以对终端做漏洞扫描
添加漏洞扫描任务:
扫描完成后,根据策略设置,可以让终端从EDR管理平台或者微软补丁服务器下载补丁(相关设备需可以访问外网)
在威胁检测——终端基线检查下
通过微隔离功能可以对服务器进行防护,只放通必要的业务端口,禁止所有的非必要的端口,提升业务的安全性。通过可视化的方式查看到流量隔离状态。
策略配置也非常简单:
本次测试,在响应中心可以看到个别服务器已失陷,且存在蠕虫病毒、木马病毒、暴力破解的威胁事件。
对于暴力破解,在系统日志中也得到验证。
在安全日志下,可以查看到EDR记录的相关日志信息。
现有一台DELL R340服务器,主板集成有PERC S140阵列控制器,配置有两块SATA 2T硬盘,现需要为两块硬盘配置raid1,配置方式如下:
一、按F2进主板BIOS,SATA Settings将模式设置为RAID模式;
二、重启系统按CTRL+R进入阵列控制器界面,配置raid1即可。
对于此款S140阵列控制器,只支持windows 2012R2(不支持AMD平台)、windows 2016、windows 2019和redhat enterprise linux7.3及更高版本、redhat enterprise linux8.0、suse linux enterprise server15及更高版本及suse linux enterprise server12 SP2及更高版本。
只有DELL的第14代服务器(DELL Rx40、DELL Tx40等)才支持PERC S140阵列控制器。
关于S140控制器的更多详细信息,可以参考DELL官网的用户指南,点击进入。
现有一台DELL R340服务器,安装Windows 2012R2操作系统时,报错信息 插入Windows 安装盘 1。如下图所示:
对于这种情况,一般是安装光盘、光驱或者U盘启动盘有问题导致,重新刻盘后问题解决。建议有条件的情况下使用管理口安装系统。
有一台DELL R720服务器,用户反应重启后系统中D盘丢失了,并且重启前是否正常也未知。
服务器上安装的是windows 2008操作系统,磁盘管理中只能看到C盘1.6T左右,服务器上共有8块900G硬盘。
服务器上没有告警信息,进入idrac,发现前三块硬盘(0槽、1槽、2槽)做了raid5,系统中就是C盘,后面五块硬盘(3槽-7槽)做了raid0,也就是用户说的丢失了的系统中的D盘,在硬件日志中可以看到4槽硬盘出现过告警,并且4槽硬盘有拔插的记录,询问用户,用户说4槽硬盘曾经出现过告警,当时直接更换了。
根据这些信息,得出其实4槽硬盘故障的时候,raid0的数据已经损坏,只是当时用户未注意。
由于目前raid0已经损坏,现在将raid0删除,重新做成raid5,并在操作系统中做GPT分区,将3T多的空间全部划分到D盘。由于用户之前的数据有备份,恢复数据。
现有一台DELL R720服务器,安装redhat操作系统,安装好后重启自检完提示:
Strike F1 to retry boot,F2 for system setup,F11 for boot manager.
根据这个提示,看起来是没有从硬盘启动,按F2进入主板BIOS,发现启动项第一项是阵列卡,这里是没有问题的。
再进入阵列卡BIOS,这台DELL R720服务器阵列卡型号是PERC H710P,在CTRL MGMT页面,有Select boot device,这里就是启动的虚拟磁盘。
发现这里的启动设备并不是redhat操作系统所在的硬盘上,将select boot device修改为操作系统安装所在的虚拟磁盘,保存退出,重启后可正常进入redhat操作系统的界面。
这个问题有其通用性,即时不是DELL R720这个型号,不是安装redhat操作系统,遇到类似的情况,也可以通过这个思路排查问题。
现有一台HP DL380 G7服务器,ilo版本是ilo3,ilo口配置好后,无法正常打开ilo页面,ping ilo口是通的,并且telnet 80和443端口也是通的,浏览器打开http://ilo的IP会自动跳转到https://ilo的IP。
根据这个现象判断,网络是没有问题,但是页面无法打开,报错ERR_SSL_BAD_RECORD_MAC_ALERT,这个问题在所有HP服务器上都会出现,使用IE浏览器和google chrome浏览器都会报错。
解决这个问题的方法也很简单,至需要在浏览器internet选项中,不选中使用TLS 1.0、1.1、1.2,保留勾选使用SSL 2.0和3.0,然后即可正常打开ilo页面。
这个问题容易联想到DELL服务器的openmanage页面,有的页面也不能正常显示,更换其他浏览器或者切换浏览急速模式、兼容模式等也会正常打开openmanage页面。
HP proliant服务器的ilo功能非常好用。ilo3以ilo2为基础,它们具有很多相同的功能。一般HP G5 G6服务器采用ilo2,G7服务器采用ilo3。
ilo3增加了以下支持:
● 使用 JSON 技术的 Web 2.0界面
● 改进了 Windows 集成远程控制台
● 多显示器显示支持
● 一键式安装
● 改进了.Net Framework
● JavaTM 集成远程控制台
● 更高性能的虚拟介质
● 传感器群支持
● 硬件 AES 加密引擎
下面重点说明了 iLO 3 和 iLO 2 的不同之处:
功能 | ILO 3 | ILO 2 |
---|---|---|
标准功能 | ||
文本控制台 | 操作系统前 | 操作系统前和操作系统 |
远程串行控制台(虚拟串行端口) | 操作系统前和操作系统 | 操作系统前和操作系统 |
服务器运行状况监视和维护 | 是 | 否 |
高级功能 | ||
文本控制台 | 操作系统前和操作系统 | 操作系统前和操作系统 |
远程控制台 | 是(虚拟KVM) | 是 |
集成远程控制台 | 是 | 是 |
Microsoft® JVM 支持 | 是 | 是 |
远程控制台获取按钮 | 是 | 是 |
终端服务器集成 | 不适用于1.0 | 是 |
HP 架构目录集成 | 是 | 是 |
无架构目录集成 | 是 | 是 |
双因素验证 | 否 | 是 |
功率调节器报告 | 是 | 是 |
虚拟软盘和CD/DVD-ROM | 是 | 是 |
USB钥匙形闪存盘虚拟介质 | 是 | 是 |
虚拟文件夹 | 是 | 是 |
现有一台HP DL560 G8服务器出现宕机现象,日志中有Uncorrectable Machine Check Exception相关的CPU报错信息,断电重启后即恢复正常。
对于这种相关的报错,可能是BIOS配置引起的问题,建议在BIOS中做以下几点配置:
1、关闭CPU的C-states,所谓C-states,即CPU的省电模式
2、关闭CPU的QPI链路电源管理,QPI链路电源管理,即Intel QPI Link Power Management
3、将电源配置修改为最高性能,即Maxumum Performance