在Red Hat Linux下安装Server Administrator

操作系统要求

Sever Administrator 支持的 Red Hat 版本:

Red Hat Enterprise Linux AS, 2.1 版

Red Hat Enterprise Linux (AS 、 ES 、 WS) , 版本 3.0

Red Hat Linux 9 版

 

系统要求

必须在每个需要管理的系统中均安装 Server Administrator 。 这样,您便可以在本地或通过支持的 Web 浏览器远程管理每个运行 Server Administrator 的系统。

管理型系统要求

任何一种支持的操作系统。

至少 64 MB RAM 。

至少 256 MB 硬盘驱动器可用空间。

管理员权限。

被监测系统和远程系统间的 TCP/IP 连接,以便于远程系统管理。

任何一种支持的 Web 浏览器。

任何一种支持的系统管理协议标准。

鼠标、键盘和显示器,用于在本地管理系统。 显示器要求屏幕分辨率最低为 800 x 600 。 建议的屏幕分辨率设置为 1024 x 768 。

Server Administrator 远程访问服务要求在要管理的系统上安装 Remote Access Controller (RAC) 。 有关软件和硬件要求的详细信息,请参阅“远程访问服务”和 Dell Remote Access Controller 安装和设置指南或 Dell 嵌入式远程访问 /MC 控制器用户指南。

支持的 Web 浏览器

要通过 Server Administrator 主页在本地管理系统,需要一个支持的 Web 浏览器。

Microsoft Internet Explorer 5.5 (装有 Service Pack 2 )和 6.0

Netscape Navigator 7.01 、 7.02 和 7.1

Mozilla 1.3 、 1.4 和 1.5

支持的系统管理协议标准

安装 Server Administrator 之前,管理型系统中必须已安装支持的系统管理协议标准。 在支持的 Microsoft Windows 操作系统中, Server Administrator 支持两个系统管理标准: 公用信息模型 (CIM) 和简单网络管理协议 (SNMP) 。 在支持的 Red Hat Linux , Server Administrator 支持 SNMP 系统管理标准。

操作系统可用的系统管理协议

操作系统 SNMP CIM
所支持的 Microsoft Windows 操作系统 可通过操作系统安装介质获得。 可通过操作系统安装介质获得。
所支持的 Red Hat Linux 操作系统 您必须安装操作系统附带的 SNMP 软件包。 不可用。
所支持的 Novell NetWare 操作系统 始终安装。 不可用。

 

在 Red Hat Linux 中安装 Server Administrator 的基本要求

您必须以 root 登录。

运行的内核必须已启用可载入模块支持。

您的 /usr 分区必须至少有 200 MB 可用空间并且 /tmp 和 /var 分区必须至少有 20 MB 可用空间。

必须安装操作系统附带的 ucd-snmp 或 net-snmp 软件包。 如果您想使用 ucd-snmp 或 net-snmp 代理的支持代理,则必须在安装 Server Administrator 之前安装支持 SNMP 标准的操作系统。 有关安装 SNMP 的详细信息,请参阅系统中运行的操作系统的安装说明。

自定义安装步骤

1、作为 root 登录到要升级管理型系统组件的运行 Red Hat Linux 的系统。

2、退出任何打开的应用程序并禁用任何病毒扫描软件。

3、将 Systems Management CD 放入系统的 CD 驱动器。 如果 CD 没有自动启动,请键入 mount /mnt/cdrom 。

4、CD 启动后,文件管理器应该自动启动并显示 CD 根目录的内容。

5、 双击“ File Manager ”(文件管理器)窗口中的 start.sh 文件。

6、系统将显示“ Welcome to Dell OpenManage Systems Management Installation ”(欢迎使用 Dell OpenManage Systems Management Installation 程序)屏幕。

7、单击“ Next ”(下一步),系统将显示软件许可协议。

8、如果同意,请单击“ Accept ”(接受)。 系统将显示一则信息,说明正在准备安装向导以引导您完成安装过程。

9、单击“ Custom Setup ”(自定义安装)。

10、系统将显示“ Managed System Software ”(管理型系统软件)屏幕。 列出的每个管理型系统软件组件的名称左侧都有一个复选框。 复选框中的复选标记表示已选定该组件进行升级。 默认情况下,所有已安装的组件都将被选定。

每个组件名称右侧的按钮提供了有关该组件的信息。

“ Settings ”(设置)按钮表示您可以升级和配置该组件。

“ More Info ”(详细信息)按钮为彩色编码:

红色表示软件不能用于您的系统。 您未安装所需的硬件或软件组件。

以灰色显示的按钮不提供信息或配置选项。

单击“ Next ”(下一步)以安装选定的组件。

11、确认组件,选择继续。

12、接受提示继续。

13、系统执行安装过程。

14、安装完成,为使安装生效,需要重启系统。

15、运行 Server Administrator ,打开浏览器输入安装 Server Administrator 的机器名或 IP 地址如下: https://computer name:1311

IBM服务器诊断面板上的remind按钮详解


提醒按钮
您可以使用光通路诊断面板上的提醒按钮,将操作员信息面板上的系统错误指示灯置 于提醒方式。当您按下提醒按钮时,您对错误进行了肯定应答,但表明不会立即采取 操作。处于提醒方式时,系统错误指示灯闪烁,并且在出现以下任何一种情况之前, 它都保持提醒方式: v 已纠正所有已知的错误。 v 服务器重新启动。 v 发生了新的错误,造成系统错误指示灯再次点亮。

关于RAID的一些基本概念


RAID简介
内嵌微处理器的磁盘子系统通常称为R A I D系统。R A I D阵列的可用容量总小于成员磁盘的总量。
一、RAID 0(分块)是简单的、不带有校验的磁盘分块,本质上它并不是一个真正的R A I D,因为它并不提供任何形式的冗余。假如RAID 0的磁盘失败,那么,数据将彻底丢失。为了在RAID 0情况下恢复数据,唯一的办法是使用磁带备份或者镜像拷贝。
二、RAID 1(镜像)是非校验的R A I D级。
三、RAID 2(专有磁盘的并行访问)的定义涉及R A I D控制器中的错误校验电路。这个功能已经被集成到磁盘驱动器中,虽然便宜,但效率却不高。因此, RAID 2没有形成产品。
四、并行访问R A I D都属于R A I D 3。R A I D 3(使用专有校验磁盘的同步访问)子系统将数据分块存放到阵列中的所有驱动器,将校验数据写到阵列中的一个另外的校验磁盘, R A I D 3被认为是校镽 A I D。
五、RAID4(使用专用校验磁盘的独立访问)是一种独立访问的R A I D实现,它使用一个专用的校验磁盘。与RAID 3不同的是,RAID 4有更大量的分块,使多个I / O请求能同时处理。虽然它为读请求提供了性能的优势,但RAID 4的写开销特别大,因为在每次读、修改和写周期中,校验磁盘都被访问两次。
六、RAID 5(使用分布式校验的独立访问)是一个独立访问的R A I D阵列,校验数据被分布在阵列中的所有磁盘。换而言之,即没有一个专有校验磁盘,因而,没有像RAID 4一样的写瓶颈。
七、RAID 6(使用双校验的独立访问)提供两级冗余,即阵列中的两个驱动器失败时,阵列仍然能够继续工作。

RAID 1: 就是我们常说的“磁盘镜像”,通过在阵列里的一个 硬盘上完全复制相同数据的方式来提供对数据的充分保护。如果其中一个硬盘毁坏,另外一个硬盘将提供精确的,完全相同的数据,RAID系统将切换到镜像的硬盘继续使用,对用户而言,数据并没有丢失。 这种镜像系统不好的地方是数据的存储速度并没有得到改善,而且磁盘利用率低。然而,它提供对管理者而言最简单有效的保护,当一个硬盘失效时,阵列管理软件会直接将数据请求切换到有效硬盘上。

RAID 3:RAID 3 将数据交错分布在多个驱动器中,有一个专门的硬盘用户提供奇偶数据存储,提供错误数据的恢复和重建。

RAID 5: RAID 5 是最通行的配置方式。它是具有奇偶校验的数据恢复功能的数据存贮方式。在 RAID 5里,奇偶校验数据块分布于阵列里的各个硬盘中,这样的数据连接会更加顺畅。 如果其中一个硬盘损坏,奇偶校验数据将被用于数据的重建。这是一个很通行的做法。这种方式的缺点是数据的读写时间会相对长些(在写入一组数据时必须完成两次读写操作)。它的容量是 N-1,最小必须有三个硬盘。

磁盘阵列术语汇编  Array:阵列

磁盘阵列模式是把几个磁盘的存储空间整合起来,形成一个大的单一连续的存储空间。NetRAID控制器利用它的SCSI通道可以把多个磁盘组合成一个磁盘阵列。简单的说,阵列就是由多个磁盘组成,并行工作的磁盘系统。需要注意的是作为热备用的磁盘是不能添加到阵列中的。

Array Spanning:阵列跨越

阵列跨越是把2个,3个或4个磁盘阵列中的存储空间进行再次整合,形成一个具有单一连续存储空间的逻辑驱动器的过程。NetRAID控制器可以跨越连续的几个阵列,但每个阵列必需由相同数量的磁盘组成,并且这几个阵列必需具有相同的RAID级别。就是说,跨越阵列是对已经形成了的几个阵列进行再一次的组合,RAID 1,RAID 3和RAID 5跨越阵列后分别形成了RAID 10,RAID 30和RAID 50。

Cache Policy:高速缓存策略

NetRAID控制器具有两种高速缓存策略,分别为Cached I/O(缓存I/O)和Direct I/O(直接I/O)。缓存I/O总是采用读取和写入策略,读取的时候常常是随意的进行缓存。直接I/O在读取新的数据时总是采用直接从磁盘读出的方法,如果一个数据单元被反复地读取,那么将选择一种适中的读取策略,并且读取的数据将被缓存起来。只有当读取的数据重复地被访问时,数据才会进入缓存,而在完全随机读取状态下,是不会有数据进入缓存的。

Capacity Expansion:容量扩展

在微软的Windows NT,2000或Novell公司的NetWare 4.2,5操作系统下,可以在线增加目前卷的容量。在Windows 2000或NetWare 5系统下,准备在线扩容时,要禁用虚拟容量选项。而在Windows NT或NetWare 4.2系统下,要使虚拟容量选项可用才能进行在线扩容。

在NetRAID控制器的快速配置工具中,设置虚拟容量选项为可用时,控制器将建立虚拟磁盘空间,然后卷能通过重构把增加的物理磁盘扩展到虚拟空间中去。重构操作只能在单一阵列中的唯一逻辑驱动器上才可以运行,你不能在跨越阵列中使用在线扩容。

Channel:通道

在两个磁盘控制器之间传送数据和控制信息的电通路。

Format:格式化

在物理驱动器(硬盘)的所有数据区上写零的操作过程,格式化是一种纯物理操作,同时对硬盘介质做一致性检测,并且标记出不可读和坏的扇区。由于大部分硬盘在出厂时已经格式化过,所以只有在硬盘介质产生错误时才需要进行格式化。 Hot Spare:热备用

当一个正在使用的磁盘发生故障后,一个空闲、加电并待机的磁盘将马上代替此故障盘,此方法就是热备用。热备用磁盘上不存储任何的用户数据,最多可以有8个磁盘作为热备用磁盘。一个热备用磁盘可以专属于一个单一的冗余阵列或者它也可以是整个阵列热备用磁盘池中的一部分。而在某个特定的阵列中,只能有一个热备用磁盘。

当磁盘发生故障时,控制器的固件能自动的用热备用磁盘代替故障磁盘,并通过算法把原来储存在故障磁盘上的数据重建到热备用磁盘上。数据只能从带有冗余的逻辑驱动器上进行重建(除了RAID 0以外),并且热备用磁盘必须有足够多的容量。系统管理员可以更换发生故障的磁盘,并把更换后的磁盘指定为新的热备用磁盘。

Hot swap Disk Module:热交换磁盘模式

热交换模式允许系统管理员在服务器不断电和不中止网络服务的情况下更换发生故障的磁盘驱动器。由于所有的供电和电缆连线都集成在服务器的底板上,所以热交换模式可以直接把磁盘从驱动器笼子的插槽中拔除,操作非常简单。然后把替换的热交换磁盘插入到插槽中即可。热交换技术仅仅在RAID 1,3,5,10,30和50的配置情况下才可以工作。

I2O(Intelligent Input/Output):智能输入输出

智能输入输出是一种工业标准,输入输出子系统的体系结构完全独立于网络操作系统,并不需要外部设备的支持。I2O使用的驱动程序可以分为操作系统服务模块(operating system services module,OSMs)和硬件驱动模块(hardware device modules,HDMs)。

Initialization:初始化

在逻辑驱动器的数据区上写零的操作过程,并且生成相应的奇偶位,使逻辑驱动器处于就绪状态。初始化将删除以前的数据并产生奇偶校验,所以逻辑驱动器在此过程中将一并进行一致性检测。没有经过初始化的阵列是不能使用的,因为还没有生成奇偶区,阵列会产生一致性检测错误。

IOP(I/O Processor):输入输出处理器

输入输出处理器是NetRAID控制器的指令中心,实现包括命令处理,PCI和SCSI总线的数据传输,RAID的处理,磁盘驱动器重建,高速缓存的管理和错误恢复等功能。

Logical Drive:逻辑驱动器

阵列中的虚拟驱动器,它可以占用一个以上的物理磁盘。逻辑驱动器把阵列或跨越阵列中的磁盘分割成了连续的存储空间,而这些存储空间分布在阵列中的所有磁盘上。NetRAID控制器能设置最多8个不同容量大小的逻辑驱动器,而每个阵列中至少要设置一个逻辑驱动器。输入输出操作只能在逻辑驱动器处于在线的状态下才运行。

Logical Volume:逻辑卷

由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。

Mirroring:镜像

冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。RAID 1和RAID 10使用的就是镜像。 Parity:奇偶校验位

在数据存储和传输中,字节中额外增加一个比特位,用来检验错误。它常常是从两个或更多的原始数据中产生一个冗余数据,冗余数据可以从一个原始数据中进行重建。不过,奇偶校验数据并不是对原始数据的完全复制。

在RAID中,这种方法可以应用到阵列中的所有磁盘驱动器上。奇偶校验位还可以组成专用的奇偶校验方式,在专用奇偶校验中,奇偶校验数据可分布在系统中所有的磁盘上。如果一个磁盘发生故障,可以通过其它磁盘上的数据和奇偶校验数据重建出这个故障磁盘上的数据。

Power Fail Safeguard:掉电保护

当此项设置为可用时,在重构过程中(非重建),所有的数据将一直保存在磁盘上,直到重构完成后才删除。这样如果在重构过程中发生掉电,将不会发生数据丢失的危险情况。

RAID:独立冗余磁盘阵列

独立冗余磁盘阵列最初叫做廉价冗余磁盘阵列(Redundant Array of Inexpensive Disks),它是由多个小容量、独立的硬盘组成的阵列,而阵列综合的性能可以超过单一昂贵大容量硬盘(SLED)的性能。由于是对多个磁盘并行操作,所以RAID磁盘子系统与单一磁盘相比它的输入输出性能得到了提高。服务器会把RAID阵列看成一个单一的存储单元,并对几个磁盘同时访问,所以提高了输入输出的速率。

RAID Levels:RAID级别

RAID级别为不同冗余类型在逻辑驱动器上的应用。它可以提高逻辑驱动器的故障容许度和性能,但也会减少逻辑驱动器的可用容量,每个逻辑驱动器都必须指定一个RAID级别。

RAID 1,3和5的逻辑驱动器使用了单一的阵列,附表1描述了它们的具体情况。简单地说,RAID 0是没有冗余,它可由一个或多个物理驱动器组成;RAID 1是镜像冗余,它在一个阵列中需要两个物理驱动器;RAID 3为专用奇偶校验冗余,即所有的冗余数据都存储在一个专用的磁盘上,一个阵列至少由三个物理驱动器组成;RAID 5为分散奇偶校验冗余,即阵列中的冗余数据分散存储在阵列中所有磁盘上,它的一个阵列中至少需要三个物理驱动器。

RAID 10,30和50是逻辑驱动器跨越阵列而组成的。附表2描述了跨越磁盘阵列的情况。

Read Policy:读取策略

NetRAID控制器提供了三种读取策略,分别为Read-Ahead(预读),Normal(标准)和Adaptive(适中)。

预读是在运行中,控制器不断的提前读取未被请求的数据,把它存储在内存中,并期望这些数据能被使用。预读可以更快的提供连续数据,当访问的是随机数据时效果就不佳了。

标准策略不使用预读的方法,当读取的数据大部分为随机数据时,这个策略是最有效的。

适中策略是当访问的最后两个磁盘上的数据存储在连续扇区上时,将采用预读的方法。

Ready State:就绪状态

就绪状态是一个可用的硬盘,它即不在线也不是热备用盘,并可以添加到任一个阵列中或者指定为热备用盘的这种硬盘状态。   Rebuild:重建

在RAID 1,3,5,10,30或50阵列中把一个故障盘上的所有数据再生到替换磁盘上的过程。磁盘重建过程中逻辑驱动器通常不会中断对其数据的访问请求。

Rebuild Rate:重建率

重建操作过程的速度。每个控制器都分配了重建率,它反映的是在重建操作中IOP资源使用的百分比。

Reconstruct:重构

在改变RAID级别后,对逻辑驱动器上的数据重新整理的过程。

SCSI Disk Status:SCSI磁盘状态

SCSI磁盘(物理驱动器)可以有以下五种状态,分别为Ready(就绪),未配置的加电可操作磁盘;Online(在线),配置过的加电可操作磁盘;Hot Spare(热备用),当一个磁盘出现故障时,准备使用的加电待用磁盘;Failed(故障),磁盘发生错误导致失效或用户利用NetRAID控制器实用程序使驱动器脱机的状态;Rebuilding(重建),磁盘正处于从一个或几个关键性逻辑驱动器上恢复数据的过程中。

Stripe Size:条带容量

在每个磁盘上连续写入数据的总量,也称作“条带深度”。你可以指定每个逻辑驱动器的条带容量从2KB,4KB,8KB一直到128KB。为了获得更高的性能,要选择条带的容量等于或小于操作系统的簇的大小。大容量的条带会产生更高的读取性能,尤其在读取连续数据的时候。而读取随机数据的时候,最好设定条带的容量小一点。如果指定128KB的条带将需要8MB内存。

Striping:条带化

条带化是把连续的数据分割成相同大小的数据块,把每段数据分别写入到阵列中不同磁盘上的方法。此技术非常有用,它比单个磁盘所能提供的读写速度要快的多,当数据从第一个磁盘上传输完后,第二个磁盘就能确定下一段数据。数据条带化正在一些现代数据库和某些RAID硬件设备中得到广泛应用。

Virtual Sizing:虚拟容量

当此设置生效后,对一个逻辑驱动器来说,控制器将报告逻辑驱动器的容量比实际的物理容量要大的多。“虚拟”空间可以允许在线扩容。

Write policy:写入策略

当处理器向磁盘上写入数据的时候,数据先被写入高速缓存中,并认为处理器有可能马上再次读取它。NetRAID有两种如下的写入策略:

Write Back(回写),在回写状态下,数据只有在要被从高速缓存中清除时才写到磁盘上。随着主存读取的数据增加,回写需要开始从高速缓存中向磁盘上写数据,并把更新的数据写入高速缓存中。由于一个数据可能会被写入高速缓存中许多次,而没有进行磁盘存取,所以回写的效率非常高。

Write Through(完全写入),在完全写入状态下,数据在输入到高速缓存时,它同时也被写到磁盘上。因为数据已经复制到磁盘上,所以在高速缓存中可以直接更改要替换的数据,因此完全写入要比回写简单的多。

存储技术 > 磁盘镜像 磁盘镜像是一个简单形式的设备虚拟化技术,产生的每个I / O操作都在两个磁盘上执行, 而两个磁盘看起来就像一个磁盘一样。磁盘镜像也称R A I D 1。

存储技术 > 存储区域网络( S A N) 存储区域网络( S A N)是一种专用网络,可以把一个或多个系统连接到存储设备和子系统, S A N可以被看作是负责存储传输的“后端”网络,而“前端”网络(或称数据网络)负责正常的 T C P / I P传输。

存储技术 > 网络连接存储( N A S) 网络连接存储( N A S),表示总控的网络存储服务器产品。典型的N A S都连接到普通的网络 上,通常是以太网,提供带有预先配置好的磁盘容量和存储管理软件的集成系统,构成一个完 备的存储解决方案。

IBM阵列卡介绍和服务器对阵列卡的支持情况


目前IBM的阵列卡从控制的硬盘来说可以分成三大类:

控制SCSI硬盘的SCSI RAID控制器: ServeRaid 、ServeRaid II、ServeRaid 3L、ServeRaid 3H、ServeRaid 4L、ServeRaid 4Lx、ServeRaid 4M、 ServeRaid 4Mx、ServeRaid 4H、ServeRaid 5i、ServeRaid 6M、ServeRaid 6i/6i+、ServeRaid 7e、ServeRaid 7k ;
控制SATA硬盘的SATA RAID控制器: ServeRaid 7e 、ServeRaid 7t;
控制SAS硬盘以及热插拔SATA硬盘的SAS RAID控制器: ServeRaid 8e、ServeRaid 8i、ServeRaid 8k、ServeRaid 8k-l、ServerRaid 8s
新一代控制SAS硬盘以及热插拔SATAII硬盘的RAID控制器: ServerRaid MR-10i、ServerRaid MR-10m、ServerRaid MR-10k;
按照是集成的阵列卡或者是选件来分:
主板集成阵列卡:ServerRaid 7e,ServerRaid 8e
选件阵列卡:ServerRaid 7k、ServerRaid 7t、ServerRaid 8i、ServerRaid 8k、ServerRaid 8k-l、ServerRaid 8s、ServerRaid MR-10i、ServerRaid MR-10m、ServerRaid MR-10k
下面会详细介绍几款新的Raid卡(SCSI阵列卡为早期的阵列卡,可参考下面链接中的介绍http://publib-b.boulder.ibm.com/Redbooks.nsf/RedbookAbstracts/tips0054.html?Open#ServeRAID):

  • ServeRaid 7e:

集成的SCSI RAID控制器,可以支持Raid 1、0 和Raid 10
支持的机型有:xSeries 206、226、236、306、346

  • ServeRaid 7t(part 71P8648):

选件的SATA Raid卡,支持SATA硬盘,可以最多连接4块SATA硬盘作阵列; Cache : 128MB 支持阵列级别:Raid 0、1、5、10; 支持机型:xSeries 206、206m、226、306、306m、336、326、326m

  • ServeRaid 7k(part 71P8642):

选件SCSI Raid卡,支持SCSI硬盘; Cache :128MB 支持的阵列级别:Raid 0、1、5、1E、5EE、00、10、1E0、50; 支持的机型:xSeries 236、346 xSystem x3400(7973,7974)

  • ServeRaid 8e:

集成的SAS RAID控制器,支持SAS/SATA Hot-Swap的硬盘,可以支持Raid 0 和1; 支持的机型:xSeries 206m、306m

  • ServerRaid 8i(part 13N2227 和part 39R8729):

选件SAS RAID控制器,支持SAS/SATA硬盘; Cache : 256MB 支持阵列级别:Raid 0、1、5、5EE、6、00、10、1E0、50、60 支持的机型:xSeries 206m、306m、260、366、460 System x3800、3850、3950/3950E

  • ServeRaid 8k-l(part 25R8025):

选件SAS RAID 控制器,支持SAS/SATA硬盘; Cache :32MB 支持阵列级别:Raid 0、1、10 支持机型:System x3400(热插拔SAS/SATA机型)、3550(热插拔SAS/SATA机型)、3650

  • ServeRaid 8k(part 25R8064):

选件SAS RAID控制器,支持SAS/SATA硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6 支持机型:System x3400(热插拔SAS/SATA机型)、3500、3550(热插拔SAS/SATA机型)、3650

  • ServeRaid 8s(part 39R8765):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System x3200、x3250(本机做阵列或外接盘柜) System x3400(全机型)、x3455、x3500、x3650、x3655、x3755、x3850

  • ServeRaid 10i(part 43W4296):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System x3200M2 x3250M2(热插拔SAS/SATA机型)

  • ServeRaid 10m(part 43W4339):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:X3950 M2, X3755, X3655, X3650, X3550, X3500, X3400, X3350, X3250 M2, X3200 M2

  • ServeRaid 10k(part 43W4280):

选件SAS RAID控制器,支持SAS/SATAII硬盘; Cache:256MB 支持阵列级别:Raid 0、1、10、5、50、6、60 支持机型:System 3850M2、3950M2

PE6850新CPU(带L3高速缓存)不支持Win2000系统


【现象】
有台 PE6850,安装WIN2000AS SP4,运行中经常蓝屏。
【分析】
1.从DSET看,没有任何硬件报警,客户也没有添加第三方硬件,没有软件防火墙等可疑程序。
2.进一步分析系统日志和DUMP文件,从Dump文件看,其蓝屏代码全部是0X1E,通过微软提供的debug工具查看,我们发现蓝屏的原因是由于AFD.SYS所引起:
afd
Ancillary Function Driver for WinSock
C:\WINNT\SYSTEM32\DRIVERS\AFD.SYS
BugCheck 1E, {80000003, 804568fc, 0, be1b6be0}

Probably caused by : afd.sys ( afd!AfdIssueDeviceControl+129 )

从微软官方网站发布的信息看,这是一个已知的问题 , 是因为微软操作系统对新型带大L3缓存的CPU的支持存在缺陷,具体参照:
http://support.microsoft.com/kb/924439/en-us ;

在戴尔的在线手册上也有说明:
http://supportapj.dell.com/support/edocs/systems/pe6850/multlang/doc_upd/F3412A08.pdf ;
在配备双核处理器(带 L3 高速缓存)的 PowerEdge 6800 系统上,不支持安装 Microsoft Windows 2000 Server 或 Microsoft Windows 2000 Advance Server。
【解决方案】
当前情况下微软在WIN2000环境下没有解决方案,任何用此类CPU的服务器都会出现此兼容性问题并且无解决方案.推荐的解决方法是:升级系统到WIN2003SP1。
————————————————————————-
若官方手册上写不支持某操作系统,则不建议安装,有些也安装不了。

HP ProLiant 服务器硬盘红灯的含义及注意事项


问题
硬盘灯显示为红色,是机器硬盘出故障吗?怎么样进一步的确定硬盘故障点及后续故障检测操作? 本文您为提供详细的指导。

解决方案
硬盘红灯通常是硬盘故障灯告警的表示(SCSI硬盘红灯可能被管理工具选中或者故障),提示硬盘可能已经出现异常情况或者故障,为了保证数据安全,首先建议尽可能备份重要数据,并且不要轻易插拔硬盘,避免误操作导致数据风险。

如果硬盘出现红灯告警,根据硬盘不同告警状态可以作初始判断和定位。硬盘指示灯状态定义参考如下图标:

SAS 和 SATA 硬盘 LED 指示灯状态
在线/活动LED灯(绿色)
故障/UID LED灯(红色/蓝色)
解释
亮,不亮,或者闪烁
交替亮红色和蓝色
硬盘故障,或者预告性故障报警;同时被管理工具选中
亮,不亮,或者闪烁
蓝色
硬盘状态正常,同时被管理工具选中
红色,规律性闪烁(1HZ)
预告性故障报警,硬盘需要更换
不亮
硬盘在线,非活动状态
规律性闪烁(1HZ)
红色,规律性闪烁(1HZ)
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失。 硬盘当前状态为参加阵列容量扩容或者迁移,同时有预告性故障报警。为使数据丢失风险降低到最低,不要移除硬盘直到扩容或迁移完成
规律性闪烁(1HZ)
不亮
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失 硬盘当前状态为重建,或者参加阵列容量扩容或者迁移
不规律性闪烁
红色,规律性闪烁(1HZ)
硬盘活动状态,同时有预告性故障报警,硬盘需要更换
不规律性闪烁
不亮
硬盘活动状态,当前有正常数据操作
不亮
红色
硬盘故障状态,控制器已将该硬盘置于离线,硬盘需要更换
不亮
红色,规律性闪烁(1HZ)
预告性故障报警,硬盘需要更换
不亮
不亮
硬盘状态为离线,热备盘或者没有配置到阵列中

*参考文档:HP ProLiant DL380 G6 Server Maintenance and Service Guide–June 2009 (Fourth Edition)

热插拔 SCSI 硬盘 LED 指示灯状态
活动LED
在线LED
故障LED
解释
亮,不亮或者闪烁
亮或者不亮
闪烁
预告性故障报警,硬盘需要更换
亮,不亮或者闪烁
不亮
硬盘在线,并且被配置到阵列中。
满足以下情况,可以更换该硬盘:硬盘被配置到冗余性阵列中并且所有硬盘都在线,有过预告性故障告警或者硬盘在扩容操作中。
亮,或者闪烁
闪烁
不亮
不要移除硬盘,移除硬盘可能终止当前操作导致数据丢失。
硬盘当前状态为重建中或者扩容操作
不亮
不亮
不要移除硬盘。
硬盘状态为被访问中。同时,1、没有被配置到阵列中。2、新更换的硬盘等待重建。3、设备启动过程中被检测到的硬盘。
闪烁
闪烁
闪烁
不要移除硬盘,移除非冗余性硬盘可能导致数据丢失。可能以下任一情况,1、作为阵列中的硬盘被阵列配置工具选中。2、硬盘判定为被HP SIM工具选中。3、硬盘固件升级中。
不亮
不亮
硬盘故障,并且已经离线,硬盘需要更换。
不亮
不亮
不亮
可能以下任一情况,1、硬盘未配置到阵列中。2、硬盘被配置到阵列中,但是作为新更换的硬盘没有开始重建或重建未完成。或者3、被配置为热备盘。
如果硬盘是连接到阵列卡控制器,可以更换该硬盘。

*参考文档:HP ProLiant DL380 Generation 4 Server Maintenance and Service Guide–June 2004 (First Edition)

如需要进一步确认故障,可收集HP ADU(HP Array Configuration Utility)报告分析,或将ADU报告发送给HP服务器工程师分析。

如设备在保修期内,可收集服务器序列号(serial number)和硬盘备件号(spare number),在设备旁拨打HP 800热线电话报修。

最安全的数据保护措施,即提前做好数据备份。

HP iLO 详细介绍

一、HP iLO 简介

iLO 是一组芯片,内部是vxworks的嵌入操作系统,在服务器的背后有一个标准RJ45口对外连接生产用交换机或者带外管理的交换机。

iLO 全名是 Integrated Lights-out,它是惠普某些型号的服务器上集成的远程管理端口,它能够允许用户基于不同的操作系统从远端管理服务器,实现了虚拟存取和控制,从而进行智能型基础构架和管理。

iLO自己有处理器,存储和网卡,默认网卡配置是DHCP,可以在服务器启动的时候进入iLO 的ROM based configuration utility 修改 ip, dpch->;static。

服务器买的时候,在面板左侧,会有一个白色的纸吊牌,上面写着iLO 网卡上的DNS name和 Username Password。 请勿随便更改,更改了不要遗失。

iLO的使用很简单.

用网线把iLO口和你的LAN switch或者专门的OB(带外管理) switch 相连。

如果你准备让iLO 默认方式工作,你需要有一个 LAN内的DHCP和DNS 服务器存在。 如果你在服务器启动的时候修改dhcp 到static ip,就无所谓了。

在你的笔记本或者pc上,开一个IE(支持java), 然后地址那里书写 iLO DNS name(写在纸吊牌上的,你需要DHCP DNS 服务器在局域网内)。 就可以看到iLO界面了。 或者直接填写iLO的ip地址也可以。

iLO界面除了报告一些硬件信息之外,主要提供了三大类控制: Virtual console, 就是类似pc anywhere 的远程控制了,但是和软件的控制不一样,它是完全硬件级的,哪怕你的服务器没有操作系统,或者硬盘损坏,或者重新启动,都可以完整的进行控制,所以除非更换被管理服务器的硬件,正常的操作都可以用iLO来做,根本不用进入机房。(当然得保证网络通畅)。

第二类是 Virtual power, 虚拟电源,模拟所有的电源开关动作,比如按住不放,按住就放等等…

第三类是Virtual media ,虚拟介质,你可以将pc或者笔记本上的光驱软驱,通过LAN, 虚拟给被管理的服务器。这个主要是用来安装操作系统,或者传输数据,打补丁之类的。

比如那个被管理服务器是新的,没有操作系统,硬盘也没有作阵列,怎么结合上面的三类控制手段来操作呢?

1. 用virtual power重启动服务器 2. 用virtual console 远程操作服务器,在服务器启动的POST时候,进入 G4服务器的Smart array 6i Rom based utility 进行阵列配置 3. 用virtual console 远程操作服务器,在服务器POST完毕的结束阶段,F9进入系统的BIOS,我们行话叫RBSU 进行配置 4. 用virtual media 将我本地笔记本或者pc的光驱虚拟出去,然后在我本地的光驱中,放windows/linux等的安装盘。

5. 远端的被管理服务器以为自己插了一个usb 光驱,或者软驱,然后按照大家熟悉的正常方式从光盘软盘启动,不过却是用自己本地的光盘(虚拟媒体功能)。

6. 你在virtual console 里面进行和平时一样的安装操作。

有一点要注意,默认的服务器买来,iLO 是不支持图形界面的,也就是说,当你virtual console 里面的远程服务器开始进入windows, X-windows的时候,本地pc,笔记本的IE 就看不出远端的画面了(虚拟KVM功能), 你需要向hp购买iLO advanced pack, 即一个iLO serial number, 把这个iLO serial number输入到iLO的一个专门输入注册号的地方,就可以突破这个限制了,不过远端如果是linux,并且是字符界面,就无所谓买不买了(用Serial over LAN功能即可)。 这个输入注册号的地方,在你IE访问iLO 后出现的管理界面的菜单上有的,最后一个。

就这些,HP的iLO目前是x86服务器系统中最理想的技术了,我们比较了好几种同类产品,在标配不加卡的情况下,HP 的管理应该是最好的。
二、HP iLO 端口的配置

开机自检时,按F8键进入 iLO 的设置界面:

1、进入 iLO 的设置: 在 菜单File 下的 “Set Defaults”是将所有的设置恢复为出厂值;

2、在菜单Network选项中配置网络:

分别设置 IP 地址和 DNS。IP 应在同一个网段中,注意子网掩码的一致。(只有在 DHCP 被设为 Disable 时,才能设置 IP address/Subnet Mask/Gateway IP address)

DNS 的名字在服务器前面带的卡片上,还包括管理员的账号和密码。   如IP 必须是静态的,DHCP 需设置为 OFF。


3、在菜单User选项中可以添加、删除、更改远程访问 User 的密码,权限等;

增加用户及编辑用户属性(密码及权限)

选择需要编辑的用户及其属性

4、在菜单Settings 的选项设置 Keyboard 的属性等,一般都为默认值;

5、菜单About为 iLO 的 firmware version固件版本,序列号等一些信息;

三、目前支持集成iLO的HP服务器有以下几种:

·HP ProLiant DL300/500系列   HP ProLiant DL320   HP ProLiant DL360   HP ProLiant DL380   HP ProLiant DL580

·HP ProLiant ML300系列   HP ProLiant ML350   HP ProLiant ML370

·HP ProLiant BL刀片服务器系列 p-Class/c-Class

注意:HP ProLiant DL100/ML100系列 没有iLO,只有IPMI。

附:智能平台管理接口IPMI V2.0工作原理详解

IBM X3850 M2 VRM故障解决过程


现有一台IBM X3850 M2服务器,具体型号是7141Q1R,网络连接不上,KVM也没有反应。
重启后发现机器启动不了,屏幕一直是黑屏,服务器诊断板上VRM灯亮起,根据诊断板上的情况,初步判断是CPU稳压模块有问题,但是该服务器上有四颗CPU,也就有四块VRM,在接电的情况下,发现VRM1的error灯亮,即可确定为一号VRM有故障,更换掉后,服务器可顺利启动进入操作系统。
———————————
VRM的英文全称是Voltage Regulator Module,中文意思是指电压调节模块,其主要作为了通过对主板上直流—>直流(简称DC—>DC)转换电路的控制来为CPU提供稳定的工作电压,同时也对电脑启动时电压的变化情况和时序作出了明确的要求。根据VRM标准制定的电源电路能够满足不同CPU的要求,减少人工干预的复杂性,简化了稳压电路的电压控制设计。这个VRM标准是Intel专门为自家CPU所制定的电压标准,CPU管脚定义也属于VRM标准的范围。
———————————
有关IBM服务器诊断板上的标识的含义,可阅读IBM服务器诊断面板详解 一文。

IBM服务器诊断面板详解


OVERSPEC

There is insufficient power to power the system. The LOG LED might also be lit.

1. Add a power supply if only one power supply is installed.

2. Use 220 V ac instead of 110 V ac.

3. Reseat the following components:

a. Power supply

b. Power backplane

4. Remove optional devices.

5. Replace the components listed in step 3 one at a time, in the order shown, restarting the server each time.

LOG

Information is present in the BMC log and system-error log.

1. Save the log if necessary and clear.

2. Check the log for possible errors.

LINK

There is a fault in an SMP Expansion Port or SMP Expansion cable (requires scalability enablement).

Notes:

1. This LED remains lit until the problem is resolved and the server is turned off and restarted.

2. If a fault occurs, the SMP Expansion Port link LED on the failed port is off.

1. Check the SMP Expansion Port link LEDs to find the failing port or cable.

2. Reseat the SMP Expansion cables.

3. Replace the SMP Expansion cables.

4. (Trained service technician only) Replace the microprocessor board.

PS

A power supply has failed or has been removed.

Note: In a redundant power configuration, the dc power LED on one power supply might be off.

1. Reinstall the removed power supply.

2. Check the individual power-supply LEDs to find the failing power supply.

3. Reseat the following components:

a. Failing power supply

b. Power backplane

4. Make sure that the power cord is fully seated in the power-supply inlet and the ac power source.

5. Replace the components listed in step 3 one at a time, in the order shown, restarting the server each time.

6. Disconnect the ac power cord for 20 seconds;then, reconnect the ac power cord and restart the

server.

PCI

A PCI adapter has failed.

Note: The error LED next to the failing adapter on the I/O board is also lit.

1. See the BMC log or the system-error log.

2. Reseat the following components:

a. Failing adapter

b. I/O board shuttle assembly

3. Replace the components listed in step 2 one at a time, in the order shown, restarting the server each time.

SP

The Remote Supervisor Adapter II has failed or is missing or the planar cable is not connected.

1. Reseat the Remote Supervisor Adapter II and planar cable.

2. Update the firmware for the Remote Supervisor Adapter II.

3. Replace the Remote Supervisor Adapter II.

FAN

A fan has failed or has been removed.

Note: A failing fan can also cause the TEMP LED to be lit.

1. Reinstall the removed fan.

2. If an individual fan LED is lit, replace the fan.

Note: A failing fan might not cause the fan LED to be lit.

3. Reseat the microprocessor board.

4. (Trained service technician only) Replace the microprocessor board.

TEMP

A system temperature or component

has exceeded specifications.

Note: A fan LED might also be lit.

1. See the BMC log or the system-error log for the source of the fault.

2. Make sure that the airflow of the server is not blocked.

3. If a fan LED is lit, reseat the fan.

4. Replace the fan for which the LED is lit.

5. Make sure that the room is neither too hot nor too cold.

6. If one of the VRMs indicates “hot,” remove ac power before you restore dc power.

MEM

Memory failure.

Note: The error LED on the memory card is also lit.

1. Remove the memory card that has a lit error LED; then, press the light path diagnostics button on the memory card to identify the failed card or DIMM.

2. Reseat the DIMM.

3. Replace the following components one at a time, in the order shown, restarting the server each time:

a. DIMM

b. Memory card

c. (Trained service technician only) Microprocessor board

NMI

A hardware error has been reported to the operating system.

Note: The PCI or MEM LED might also be lit.

1. See the BMC log and the system-error log.

2. If the PCI LED is lit, follow the instructions for that LED.

3. If the MEM LED is lit, follow the instructions for that LED.

4. Restart the server.

CNFG

A configuration error has occurred. 1. Find the failing or missing component by checking the other light path diagnostics LEDs.

2. Make sure that the fans, power supplies, microprocessors, VRMs, and memory cards are

installed in the correct sequence.

CPU

A microprocessor has failed, is missing, or has been incorrectly installed.

1. Make sure that the microprocessors are installed in the correct sequence

2. Check the BMC log or the system-error log to determine the reason for the lit LED.

3. Find the failing, missing, or mismatched microprocessor by checking the LEDs on the microprocessor board.

4. Reseat the following components:

a. Failing microprocessor

b. Microprocessor board

5. Replace the following components one at a time, in the order shown, restarting the server each time:

a. (Trained service technician only) Failing microprocessor

b. (Trained service technician only) Microprocessor board

VRM

A dc-dc regulator has failed or is missing.

1. Check the BMC log or the system-error log to determine the reason for the lit LED (for a VRM).

2. Find the failing or missing VRM by checking the LEDs on the microprocessor board.

3. Install any missing VRMs.

4. Reseat the following components:

a. Failing VRM

b. Microprocessor associated with the VRM

c. Microprocessor board

5. Replace the following components one at a time, in the order shown, restarting the server each time:

a. Failing VRM

b. (Trained service technician only) Microprocessor associated with the VRM

c. (Trained service technician only) Microprocessor board

DASD

A hard disk drive has failed or has been removed.

Note: The error LED on the failing hard disk drive is also lit.

1. Reinstall the removed drive.

2. Reseat the following components:

a. Failing hard disk drive

b. SAS hard disk drive backplane

c. SAS signal cable

d. I/O board shuttle assembly

3. Replace the components listed in step 2 one at a time, in the order shown, restarting the server each time.

RAID

The RAID controller has indicated a fault.

1. Check the BMC log or the system-error log for information.

2. Reseat the following components:

a. RAID controller, if possible

b. Hard disk drives

c. I/O board shuttle assembly

3. Replace the components in step 2 one at a time, in the order shown, restarting the server each time.

BOARD

The microprocessor board or I/O board has failed.

1. Find the failing board by checking the LEDs on the microprocessor board and I/O board.

2. Reseat the failing board.

3. Replace the failing board.