现有一台HP DL380 G5服务器,开不了机,设备上没有任何告警,接通电源未开机时,开机按钮上的灯呈黄色,按下开机按钮后,灯呈绿色,且电源风扇都运转正常,主板上的灯看起来也都是正常的,但是显示器没有任何显示,键盘上的灯也不亮,将主板上的6号开关拨到ON后,开机约5分钟,关机再拨回去,再开机故障依旧,将内存条拔下后,开机,主板未有告警声,基本可以判断为主板故障。
更换主板后,服务器可以正常开机,显示器有正常的自检信息,由于只更换主板,并未更换阵列卡等硬件,设备已可正常进入操作系统并运行。
现有一台HP DL380 G5服务器,开不了机,设备上没有任何告警,接通电源未开机时,开机按钮上的灯呈黄色,按下开机按钮后,灯呈绿色,且电源风扇都运转正常,主板上的灯看起来也都是正常的,但是显示器没有任何显示,键盘上的灯也不亮,将主板上的6号开关拨到ON后,开机约5分钟,关机再拨回去,再开机故障依旧,将内存条拔下后,开机,主板未有告警声,基本可以判断为主板故障。
更换主板后,服务器可以正常开机,显示器有正常的自检信息,由于只更换主板,并未更换阵列卡等硬件,设备已可正常进入操作系统并运行。
现有一台HP DL580 G5服务器,应用突然中断,网络也连接不上,去机房查看,发现该服务器宕机,重启服务器后,开机自检屏幕无显示,诊断板上的内部组件灯亮,且四个CPU的告警灯也亮。断电后过两分钟开机,故障依旧。
由于该服务器安装有四个CPU,且服务器只能在安装有一个、两个、四个CPU的情况下运行,所以将三号和四号的CPU、CPU电压模块VRM拆下,可正常开机,进入操作系统后,使用HP软件查看硬件日志,发现日志中只记录POST ERROR,并未有详细的故障记录,且为了尽快恢复应用,并未详细测试拆下的CPU和VRM,在使用一号和二号CPU时,该服务器运行正常。
附1、HP DL580 G5服务器的诊断板位于开关的下部,光驱的上部;
附2、CPU告警可能为CPU、VRM、主板等故障引起,也可能散热不好,再次将三号、四号CPU装上,服务器可能可以正常开机自检运行。
管理HP存储步骤:
远程桌面连接到192.X.X.X,打开Command view eva,使用administrator和密码XXX登录后,可以管理和查看该存储的配置。
EVA6400-02为主用,EVA6400-01为备用。
创建LUN操作步骤:
1、 先在EVA6400-02上创建vdisk;
2、 创建DR,可以选择同步或异步,LOG大小可以设置为default或者和vdisk同样大小,设置好后,在EVA6400-01上会自动创建一个同名的vdisk;
3、 映射主机,在EVA6400-02上,vdisk选择presention,再点击present,选中下面的主机,再点击present vdisk;
4、 在EVA6400-01上也做同样的映射设置;
5、 完成。
VMWARE ESX主机挂载存储设置步骤:
1、 点击一台主机;
2、 选择右边标签中的配置;
3、 点击存储器,点击添加存储器,默认下一步,确认好ANN号后,挂载存储。
4、 步骤完成。
删除虚拟机并摘除存储上LUN的映射释放存储空间步骤:
1、 在VMWARE ESX上关闭需要删除的虚拟机;
2、 查看虚拟机所连接的存储,并查看存储的ANN号;
3、 右击需要删除的虚拟机,选择从磁盘中移除虚拟机;
4、 登录HP存储软件,根据查看到的ANN号,确认vdisk,在EVA6400-02和EVA6400-01上的vdisk上选择presention,再点击unpresent,选中下面的主机,再点击unpresent,摘除该LUN与VMWARE ESX主机的映射关系;
5、 在EVA6400-02上的DR中,删除DR,选中DR,根据DR中members确认是否是该DR,点击delete,然后删除EVA6400-02和EVA6400-01上的vdisk;
6、 完成。
开机出现F1和F2的提示通常都是由于Smart Array系列的阵列卡报警所致。
1. 1769-Slot X Drive Array – Drive(s) Disabled Due to Failure During Capacity Expansion.Select F1 to continue with logical drives disabled.Select F2 to accept data loss and to re-enable logical drives.
故障原因:阵列加速器模块被卸下或出现故障,扩展进程数据丢失;无法从阵列加速器中读取扩展进程数据;扩展因不可恢复的驱动器错误而终止;扩展因阵列加速器错误而终止。
解决方法:按F2键接受数据丢失并重新启用逻辑驱动器;从备份里恢复数据;如果是因驱动器质量有问题或阵列加速器故障而导致的,请更换相应的驱动器或阵列控制器。
2.1786-Slot 1 Drive Array Recovery Needed.Select F1 to continue with recovery of data to drive.Select F2 to continue without recovery of data to drive.
故障原因:系统处于临时数据恢复模式下。先前出现故障或更换的驱动器尚未重建。
解决方法:按F1键启动自动数据恢复程序,更换驱动器或驱动器工作时,数据自动恢复到驱动器X;按F2键使系统能够以临时数据恢复模式继续运行。
3.1788-Slot X Drive Array Reports Incorrect Drive Replacement.
故障原因:更换的驱动器被安装在不正确的驱动器托架上;也可能因驱动器电源线连接有问题、数据电缆噪音或 SCSI 电缆有缺陷而显示。
解决方法:按照指导重新正确的安装驱动器;如果此消息是因电源线连接有问题而不是驱动器更换不正确所致,检查电缆线路是否正确。
4. 1789-Slot X Drive Array SCSI Drive(s) Not Responding……Check cables or replace the following SCSI drives: SCSI Port Y: SCSI ID Z Select F1 to continue – drive array will remain disabled. Select F2 to failed drives that are not responding – Interim Recovery Mode will be enabled if configured for fault tolerance.
故障原因:上次在使用系统时工作的驱动器此时缺少或未启动。可能是驱动器出现问题或SCSI电缆松动。
解决方法:切断系统电源,检查电缆的连接并确保所有驱动器均已完全插入其驱动器托架中,打开服务器电源看问题是否依然存在,如果配置为可进行容错操作且RAID级别能承受指定的所有驱动器出现的故障,请按F2键废除不响应的驱动器,立刻更换为质量良好的驱动器,否则,按F1键启动在控制器上禁用所有逻辑驱动器的系统。
5.1799-Drive Array – Drive(s) Disabled Due to Array Accelerator Data Loss. Select “F1” to continue with logical drives disabled. Select F2 to accept data loss and to re-enable logical drives.
故障原因:逻辑驱动器因 posted-writes 内存中数据丢失而出现故障。
解决方法:按F1键且通过禁用逻辑驱动器来继续,或者按F2键接受数据丢失并重新启用逻辑驱动器。按F2键之后,检查文件系统的完整性并从备份中恢复丢失的数据。
开机出现SMART的报错信息
1720-Slot X Drive Array – S.M.A.R.T. Hard Drive(s) Detect Imminent Failure SCSI: Port Y: SCSI ID Z.
故障原因:这是预先通知SCSI硬盘驱动器不久将出现故障。
解决方法:如果配置为非RAID0阵列,请更换将出现故障/已经出现故障的驱动器;果配置为RAID0或非 RAID设置,请备份驱动器、更换或恢复。
如果硬盘出现红灯告警,根据硬盘不同告警状态可以作初始判断和定位。硬盘指示灯状态定义参考如下图标:
在线/活动LED灯(绿色)
|
故障/UID LED灯(红色/蓝色)
|
解释
|
---|---|---|
亮,不亮,或者闪烁
|
交替亮红色和蓝色
|
硬盘故障,或者预告性故障报警;同时被管理工具选中
|
亮,不亮,或者闪烁
|
蓝色
|
硬盘状态正常,同时被管理工具选中
|
亮
|
红色,规律性闪烁(1HZ)
|
预告性故障报警,硬盘需要更换
|
亮
|
不亮
|
硬盘在线,非活动状态
|
规律性闪烁(1HZ)
|
红色,规律性闪烁(1HZ)
|
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失。 硬盘当前状态为参加阵列容量扩容或者迁移,同时有预告性故障报警。为使数据丢失风险降低到最低,不要移除硬盘直到扩容或迁移完成
|
规律性闪烁(1HZ)
|
不亮
|
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失 硬盘当前状态为重建,或者参加阵列容量扩容或者迁移
|
不规律性闪烁
|
红色,规律性闪烁(1HZ)
|
硬盘活动状态,同时有预告性故障报警,硬盘需要更换
|
不规律性闪烁
|
不亮
|
硬盘活动状态,当前有正常数据操作
|
不亮
|
红色
|
硬盘故障状态,控制器已将该硬盘置于离线,硬盘需要更换
|
不亮
|
红色,规律性闪烁(1HZ)
|
预告性故障报警,硬盘需要更换
|
不亮
|
不亮
|
硬盘状态为离线,热备盘或者没有配置到阵列中
|
*参考文档:HP ProLiant DL380 G6 Server Maintenance and Service Guide–June 2009 (Fourth Edition)
活动LED
|
在线LED
|
故障LED
|
解释
|
---|---|---|---|
亮,不亮或者闪烁
|
亮或者不亮
|
闪烁
|
预告性故障报警,硬盘需要更换
|
亮,不亮或者闪烁
|
亮
|
不亮
|
硬盘在线,并且被配置到阵列中。
满足以下情况,可以更换该硬盘:硬盘被配置到冗余性阵列中并且所有硬盘都在线,有过预告性故障告警或者硬盘在扩容操作中。
|
亮,或者闪烁
|
闪烁
|
不亮
|
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失。
硬盘当前状态为重建中或者扩容操作
|
亮
|
不亮
|
不亮
|
不要移除硬盘。
硬盘状态为被访问中。同时,1、没有被配置到阵列中。2、新更换的硬盘等待重建。3、设备启动过程中被检测到的硬盘。
|
闪烁
|
闪烁
|
闪烁
|
不要移除硬盘,移除非冗余性硬盘可能导致数据丢失。可能以下任一情况,1、作为阵列中的硬盘被阵列配置工具选中。2、硬盘判定为被HP SIM工具选中。3、硬盘固件升级中。
|
不亮
|
不亮
|
亮
|
硬盘故障,并且已经离线,硬盘需要更换。
|
不亮
|
不亮
|
不亮
|
可能以下任一情况,1、硬盘未配置到阵列中。2、硬盘被配置到阵列中,但是作为新更换的硬盘没有开始重建或重建未完成。或者3、被配置为热备盘。
如果硬盘是连接到阵列卡控制器,可以更换该硬盘。
|
*参考文档:HP ProLiant DL380 Generation 4 Server Maintenance and Service Guide–June 2004 (First Edition)
如需要进一步确认故障,可收集HP ADU(HP Array Configuration Utility)报告分析,或将ADU报告发送给HP服务器工程师分析。
如设备在保修期内,可收集服务器序列号(serial number)和硬盘备件号(spare number),在设备旁拨打HP 800热线电话报修。
最安全的数据保护措施,即提前做好数据备份。
一、HP iLO 简介
iLO 是一组芯片,内部是vxworks的嵌入操作系统,在服务器的背后有一个标准RJ45口对外连接生产用交换机或者带外管理的交换机。
iLO 全名是 Integrated Lights-out,它是惠普某些型号的服务器上集成的远程管理端口,它能够允许用户基于不同的操作系统从远端管理服务器,实现了虚拟存取和控制,从而进行智能型基础构架和管理。
iLO自己有处理器,存储和网卡,默认网卡配置是DHCP,可以在服务器启动的时候进入iLO 的ROM based configuration utility 修改 ip, dpch->;static。
服务器买的时候,在面板左侧,会有一个白色的纸吊牌,上面写着iLO 网卡上的DNS name和 Username Password。 请勿随便更改,更改了不要遗失。
iLO的使用很简单.
用网线把iLO口和你的LAN switch或者专门的OB(带外管理) switch 相连。
如果你准备让iLO 默认方式工作,你需要有一个 LAN内的DHCP和DNS 服务器存在。 如果你在服务器启动的时候修改dhcp 到static ip,就无所谓了。
在你的笔记本或者pc上,开一个IE(支持java), 然后地址那里书写 iLO DNS name(写在纸吊牌上的,你需要DHCP DNS 服务器在局域网内)。 就可以看到iLO界面了。 或者直接填写iLO的ip地址也可以。
iLO界面除了报告一些硬件信息之外,主要提供了三大类控制: Virtual console, 就是类似pc anywhere 的远程控制了,但是和软件的控制不一样,它是完全硬件级的,哪怕你的服务器没有操作系统,或者硬盘损坏,或者重新启动,都可以完整的进行控制,所以除非更换被管理服务器的硬件,正常的操作都可以用iLO来做,根本不用进入机房。(当然得保证网络通畅)。
第二类是 Virtual power, 虚拟电源,模拟所有的电源开关动作,比如按住不放,按住就放等等…
第三类是Virtual media ,虚拟介质,你可以将pc或者笔记本上的光驱软驱,通过LAN, 虚拟给被管理的服务器。这个主要是用来安装操作系统,或者传输数据,打补丁之类的。
比如那个被管理服务器是新的,没有操作系统,硬盘也没有作阵列,怎么结合上面的三类控制手段来操作呢?
1. 用virtual power重启动服务器 2. 用virtual console 远程操作服务器,在服务器启动的POST时候,进入 G4服务器的Smart array 6i Rom based utility 进行阵列配置 3. 用virtual console 远程操作服务器,在服务器POST完毕的结束阶段,F9进入系统的BIOS,我们行话叫RBSU 进行配置 4. 用virtual media 将我本地笔记本或者pc的光驱虚拟出去,然后在我本地的光驱中,放windows/linux等的安装盘。
5. 远端的被管理服务器以为自己插了一个usb 光驱,或者软驱,然后按照大家熟悉的正常方式从光盘软盘启动,不过却是用自己本地的光盘(虚拟媒体功能)。
6. 你在virtual console 里面进行和平时一样的安装操作。
有一点要注意,默认的服务器买来,iLO 是不支持图形界面的,也就是说,当你virtual console 里面的远程服务器开始进入windows, X-windows的时候,本地pc,笔记本的IE 就看不出远端的画面了(虚拟KVM功能), 你需要向hp购买iLO advanced pack, 即一个iLO serial number, 把这个iLO serial number输入到iLO的一个专门输入注册号的地方,就可以突破这个限制了,不过远端如果是linux,并且是字符界面,就无所谓买不买了(用Serial over LAN功能即可)。 这个输入注册号的地方,在你IE访问iLO 后出现的管理界面的菜单上有的,最后一个。
就这些,HP的iLO目前是x86服务器系统中最理想的技术了,我们比较了好几种同类产品,在标配不加卡的情况下,HP 的管理应该是最好的。
二、HP iLO 端口的配置
开机自检时,按F8键进入 iLO 的设置界面:
1、进入 iLO 的设置: 在 菜单File 下的 “Set Defaults”是将所有的设置恢复为出厂值;
2、在菜单Network选项中配置网络:
分别设置 IP 地址和 DNS。IP 应在同一个网段中,注意子网掩码的一致。(只有在 DHCP 被设为 Disable 时,才能设置 IP address/Subnet Mask/Gateway IP address)
DNS 的名字在服务器前面带的卡片上,还包括管理员的账号和密码。 如IP 必须是静态的,DHCP 需设置为 OFF。
3、在菜单User选项中可以添加、删除、更改远程访问 User 的密码,权限等;
增加用户及编辑用户属性(密码及权限)
选择需要编辑的用户及其属性
4、在菜单Settings 的选项设置 Keyboard 的属性等,一般都为默认值;
5、菜单About为 iLO 的 firmware version固件版本,序列号等一些信息;
三、目前支持集成iLO的HP服务器有以下几种:
·HP ProLiant DL300/500系列 HP ProLiant DL320 HP ProLiant DL360 HP ProLiant DL380 HP ProLiant DL580
·HP ProLiant ML300系列 HP ProLiant ML350 HP ProLiant ML370
·HP ProLiant BL刀片服务器系列 p-Class/c-Class
注意:HP ProLiant DL100/ML100系列 没有iLO,只有IPMI。