文件系统错误
一、故障现象
当尝试访问/opt目录的数据时,系统提示“Input/output”错误。
在/目录下执行“ls -la”也看到opt目录显示“????????”,这时候/opt已不能正常对外提供服务。
二、故障初步排查
查看/var/log/messages*日志及日志存档文件,确认是否存在“sda FAILE”错误提示,如果存在以上报错说明物理磁盘存在故障,所以导致/dev/dm-1设备出现“I/O error”,该/dev/dm-1对应的是/opt文件系统,故造成应用程序运行故障。
#cat /var/log/messages* |egrep “sda|error” Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] FAILE… Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] Sense Key : Not Ready [current] Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] Add. Sense: Logical unit not ready, cause not reportable Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] CDB: Write(10) 2a 00 2b 97 9a c0 00 00 30 00 Oct 15 20:50:46 localhost kernel: blk_update_request: I/O error, dev sda, sector 731355840 Oct 15 20:50:46 localhost kernel: XFS (dm-1): metadata I/O error: block 0x297d6ac0 (“xlog_iodone”) error 5 numblks 64 Oct 15 20:50:46 localhost kernel: XFS (dm-1): xfs_do_force_shutdown(0x2) called from line 1221 of file fs/xfs/xfs_log.c. Return address = 0x
c05d7c30Oct 15 20:50:46 localhost kernel: XFS (dm-1): Log I/O Error Detected. Shutting down filesystem Oct 15 20:50:46 localhost kernel: XFS (dm-1): Please umount the filesystem and rectify the problem(s)
三、确认磁盘故障
3.1.重启主机进入RAID卡管理界面
接显示器或者通过服务器BMC管理口打开虚拟控制台,在启动到RAID界面时根据提示信息按快捷键“Ctrl+C”进入RAID卡管理界面。本例为LSI SAS3008 RAID卡 ,不同类型的卡快捷方式有所不同,根据页面实际提示为准。
3.2 回车进入SAS 3008卡进行操作
3.3 选择RAID Properties选项
3.4 选择“View Existing Volume” 查看已存在的卷信息
3.5 选择“Manager Volume”管理当前的卷
当前RAID1未发现有磁盘报错的信息(有坏道但不报出来,东芝这一批硬盘特性)。
3.6 选择“Consistency Check”进行一致性检查
在容错虚拟磁盘系统中,需要定期进行一致性检查。一致性检查将对RAID1/10阵列中的冗余数据的正确性和有效性进行检查。该操作对系统正常运行无影响,根据提示输入“Y”开始检查。
检查的过程根据数据的大小时间不一,一般在几十分钟左右。
3.7 结果展示
一致性检查完成后打印“PermDegrd”和“Bad block table full”,“PermDegrd”的全写为“Permanently Degraded”,即永久降级。PermDegrd的定义为:当硬盘的Bad Block Table中记录了超过64个连续坏块后,firmware将标示这块硬盘的RAID状态为“PermDegrd”。
回退到第四步,发现“Slot 1”磁盘状态为“Failed”,此时坏盘状态已打印出来。
四、根因分析
服务器的两块硬盘都经受了不同程度的损伤。一个硬盘已经Fail;另一个硬盘的连续坏块也达到很高的状态;硬盘这种状态时,只能进行读写操作,但是已不能再重构RAID;故新硬盘无法与之同步。
五、结论、解决方案及效果
定位结论:
RAID 1主成员盘连续坏块大于或等于64个,导致RAID进入永久降级状态。
解决方案:
处于永久降级状态的RAID组,不建议继续使用;将硬盘数据备份后更换RAID组内所有硬盘,新建RAID组并导入备份数据。
六、报修服务器厂家
电话联系服务器维护厂家进行报修,请厂家工程师带着新磁盘上门操作磁盘的更换及数据的同步。
七、SAS 9631-8i 操作参考
光标选择RAID10 行,按F2,选择Consistency Check –>start 回车,启动检查任务。
更多文章请关注本公众号