标签归档:ibm

IBM阵列卡介绍和服务器对阵列卡的支持情况


目前IBM的阵列卡从控制的硬盘来说可以分成三大类:

控制SCSI硬盘的SCSI RAID控制器: ServeRaid 、ServeRaid II、ServeRaid 3L、ServeRaid 3H、ServeRaid 4L、ServeRaid 4Lx、ServeRaid 4M、 ServeRaid 4Mx、ServeRaid 4H、ServeRaid 5i、ServeRaid 6M、ServeRaid 6i/6i+、ServeRaid 7e、ServeRaid 7k ;
控制SATA硬盘的SATA RAID控制器: ServeRaid 7e 、ServeRaid 7t;
控制SAS硬盘以及热插拔SATA硬盘的SAS RAID控制器: ServeRaid 8e、ServeRaid 8i、ServeRaid 8k、ServeRaid 8k-l、ServerRaid 8s
新一代控制SAS硬盘以及热插拔SATAII硬盘的RAID控制器: ServerRaid MR-10i、ServerRaid MR-10m、ServerRaid MR-10k;
按照是集成的阵列卡或者是选件来分:
主板集成阵列卡:ServerRaid 7e,ServerRaid 8e
选件阵列卡:ServerRaid 7k、ServerRaid 7t、ServerRaid 8i、ServerRaid 8k、ServerRaid 8k-l、ServerRaid 8s、ServerRaid MR-10i、ServerRaid MR-10m、ServerRaid MR-10k
下面会详细介绍几款新的Raid卡(SCSI阵列卡为早期的阵列卡,可参考下面链接中的介绍http://publib-b.boulder.ibm.com/Redbooks.nsf/RedbookAbstracts/tips0054.html?Open#ServeRAID):

  • ServeRaid 7e:

集成的SCSI RAID控制器,可以支持Raid 1、0 和Raid 10
支持的机型有:xSeries 206、226、236、306、346

  • ServeRaid 7t(part 71P8648):

选件的SATA Raid卡,支持SATA硬盘,可以最多连接4块SATA硬盘作阵列; Cache : 128MB 支持阵列级别:Raid 0、1、5、10; 支持机型:xSeries 206、206m、226、306、306m、336、326、326m

  • ServeRaid 7k(part 71P8642):

选件SCSI Raid卡,支持SCSI硬盘; Cache :128MB 支持的阵列级别:Raid 0、1、5、1E、5EE、00、10、1E0、50; 支持的机型:xSeries 236、346 xSystem x3400(7973,7974)

  • ServeRaid 8e:

集成的SAS RAID控制器,支持SAS/SATA Hot-Swap的硬盘,可以支持Raid 0 和1; 支持的机型:xSeries 206m、306m

  • ServerRaid 8i(part 13N2227 和part 39R8729):

选件SAS RAID控制器,支持SAS/SATA硬盘; Cache : 256MB 支持阵列级别:Raid 0、1、5、5EE、6、00、10、1E0、50、60 支持的机型:xSeries 206m、306m、260、366、460 System x3800、3850、3950/3950E

  • ServeRaid 8k-l(part 25R8025):

选件SAS RAID 控制器,支持SAS/SATA硬盘; Cache :32MB 支持阵列级别:Raid 0、1、10 支持机型:System x3400(热插拔SAS/SATA机型)、3550(热插拔SAS/SATA机型)、3650

  • ServeRaid 8k(part 25R8064):

选件SAS RAID控制器,支持SAS/SATA硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6 支持机型:System x3400(热插拔SAS/SATA机型)、3500、3550(热插拔SAS/SATA机型)、3650

  • ServeRaid 8s(part 39R8765):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System x3200、x3250(本机做阵列或外接盘柜) System x3400(全机型)、x3455、x3500、x3650、x3655、x3755、x3850

  • ServeRaid 10i(part 43W4296):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System x3200M2 x3250M2(热插拔SAS/SATA机型)

  • ServeRaid 10m(part 43W4339):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:X3950 M2, X3755, X3655, X3650, X3550, X3500, X3400, X3350, X3250 M2, X3200 M2

  • ServeRaid 10k(part 43W4280):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System 3850M2、3950M2

IBM X3850 M2 VRM故障解决过程


现有一台IBM X3850 M2服务器,具体型号是7141Q1R,网络连接不上,KVM也没有反应。
重启后发现机器启动不了,屏幕一直是黑屏,服务器诊断板上VRM灯亮起,根据诊断板上的情况,初步判断是CPU稳压模块有问题,但是该服务器上有四颗CPU,也就有四块VRM,在接电的情况下,发现VRM1的error灯亮,即可确定为一号VRM有故障,更换掉后,服务器可顺利启动进入操作系统。
———————————
VRM的英文全称是Voltage Regulator Module,中文意思是指电压调节模块,其主要作为了通过对主板上直流—>直流(简称DC—>DC)转换电路的控制来为CPU提供稳定的工作电压,同时也对电脑启动时电压的变化情况和时序作出了明确的要求。根据VRM标准制定的电源电路能够满足不同CPU的要求,减少人工干预的复杂性,简化了稳压电路的电压控制设计。这个VRM标准是Intel专门为自家CPU所制定的电压标准,CPU管脚定义也属于VRM标准的范围。
———————————
有关IBM服务器诊断板上的标识的含义,可阅读IBM服务器诊断面板详解 一文。

IBM服务器诊断面板详解


OVERSPEC

There is insufficient power to power the system. The LOG LED might also be lit.

1. Add a power supply if only one power supply is installed.

2. Use 220 V ac instead of 110 V ac.

3. Reseat the following components:

a. Power supply

b. Power backplane

4. Remove optional devices.

5. Replace the components listed in step 3 one at a time, in the order shown, restarting the server each time.

LOG

Information is present in the BMC log and system-error log.

1. Save the log if necessary and clear.

2. Check the log for possible errors.

LINK

There is a fault in an SMP Expansion Port or SMP Expansion cable (requires scalability enablement).

Notes:

1. This LED remains lit until the problem is resolved and the server is turned off and restarted.

2. If a fault occurs, the SMP Expansion Port link LED on the failed port is off.

1. Check the SMP Expansion Port link LEDs to find the failing port or cable.

2. Reseat the SMP Expansion cables.

3. Replace the SMP Expansion cables.

4. (Trained service technician only) Replace the microprocessor board.

PS

A power supply has failed or has been removed.

Note: In a redundant power configuration, the dc power LED on one power supply might be off.

1. Reinstall the removed power supply.

2. Check the individual power-supply LEDs to find the failing power supply.

3. Reseat the following components:

a. Failing power supply

b. Power backplane

4. Make sure that the power cord is fully seated in the power-supply inlet and the ac power source.

5. Replace the components listed in step 3 one at a time, in the order shown, restarting the server each time.

6. Disconnect the ac power cord for 20 seconds;then, reconnect the ac power cord and restart the

server.

PCI

A PCI adapter has failed.

Note: The error LED next to the failing adapter on the I/O board is also lit.

1. See the BMC log or the system-error log.

2. Reseat the following components:

a. Failing adapter

b. I/O board shuttle assembly

3. Replace the components listed in step 2 one at a time, in the order shown, restarting the server each time.

SP

The Remote Supervisor Adapter II has failed or is missing or the planar cable is not connected.

1. Reseat the Remote Supervisor Adapter II and planar cable.

2. Update the firmware for the Remote Supervisor Adapter II.

3. Replace the Remote Supervisor Adapter II.

FAN

A fan has failed or has been removed.

Note: A failing fan can also cause the TEMP LED to be lit.

1. Reinstall the removed fan.

2. If an individual fan LED is lit, replace the fan.

Note: A failing fan might not cause the fan LED to be lit.

3. Reseat the microprocessor board.

4. (Trained service technician only) Replace the microprocessor board.

TEMP

A system temperature or component

has exceeded specifications.

Note: A fan LED might also be lit.

1. See the BMC log or the system-error log for the source of the fault.

2. Make sure that the airflow of the server is not blocked.

3. If a fan LED is lit, reseat the fan.

4. Replace the fan for which the LED is lit.

5. Make sure that the room is neither too hot nor too cold.

6. If one of the VRMs indicates “hot,” remove ac power before you restore dc power.

MEM

Memory failure.

Note: The error LED on the memory card is also lit.

1. Remove the memory card that has a lit error LED; then, press the light path diagnostics button on the memory card to identify the failed card or DIMM.

2. Reseat the DIMM.

3. Replace the following components one at a time, in the order shown, restarting the server each time:

a. DIMM

b. Memory card

c. (Trained service technician only) Microprocessor board

NMI

A hardware error has been reported to the operating system.

Note: The PCI or MEM LED might also be lit.

1. See the BMC log and the system-error log.

2. If the PCI LED is lit, follow the instructions for that LED.

3. If the MEM LED is lit, follow the instructions for that LED.

4. Restart the server.

CNFG

A configuration error has occurred. 1. Find the failing or missing component by checking the other light path diagnostics LEDs.

2. Make sure that the fans, power supplies, microprocessors, VRMs, and memory cards are

installed in the correct sequence.

CPU

A microprocessor has failed, is missing, or has been incorrectly installed.

1. Make sure that the microprocessors are installed in the correct sequence

2. Check the BMC log or the system-error log to determine the reason for the lit LED.

3. Find the failing, missing, or mismatched microprocessor by checking the LEDs on the microprocessor board.

4. Reseat the following components:

a. Failing microprocessor

b. Microprocessor board

5. Replace the following components one at a time, in the order shown, restarting the server each time:

a. (Trained service technician only) Failing microprocessor

b. (Trained service technician only) Microprocessor board

VRM

A dc-dc regulator has failed or is missing.

1. Check the BMC log or the system-error log to determine the reason for the lit LED (for a VRM).

2. Find the failing or missing VRM by checking the LEDs on the microprocessor board.

3. Install any missing VRMs.

4. Reseat the following components:

a. Failing VRM

b. Microprocessor associated with the VRM

c. Microprocessor board

5. Replace the following components one at a time, in the order shown, restarting the server each time:

a. Failing VRM

b. (Trained service technician only) Microprocessor associated with the VRM

c. (Trained service technician only) Microprocessor board

DASD

A hard disk drive has failed or has been removed.

Note: The error LED on the failing hard disk drive is also lit.

1. Reinstall the removed drive.

2. Reseat the following components:

a. Failing hard disk drive

b. SAS hard disk drive backplane

c. SAS signal cable

d. I/O board shuttle assembly

3. Replace the components listed in step 2 one at a time, in the order shown, restarting the server each time.

RAID

The RAID controller has indicated a fault.

1. Check the BMC log or the system-error log for information.

2. Reseat the following components:

a. RAID controller, if possible

b. Hard disk drives

c. I/O board shuttle assembly

3. Replace the components in step 2 one at a time, in the order shown, restarting the server each time.

BOARD

The microprocessor board or I/O board has failed.

1. Find the failing board by checking the LEDs on the microprocessor board and I/O board.

2. Reseat the failing board.

3. Replace the failing board.