文件系统错误(文件系统Input/output error故障分析)

文件系统错误
一、故障现象

当尝试访问/opt目录的数据时，系统提示“Input/output”错误。

在/目录下执行“ls -la”也看到opt目录显示“????????”,这时候/opt已不能正常对外提供服务。

二、故障初步排查

查看/var/log/messages*日志及日志存档文件，确认是否存在“sda FAILE”错误提示，如果存在以上报错说明物理磁盘存在故障，所以导致/dev/dm-1设备出现“I/O error”，该/dev/dm-1对应的是/opt文件系统，故造成应用程序运行故障。

#cat /var/log/messages* |egrep “sda|error” Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] FAILE… Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] Sense Key : Not Ready [current] Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] Add. Sense: Logical unit not ready, cause not reportable Oct 15 20:50:46 localhost kernel: sd 0:1:0:0: [sda] CDB: Write(10) 2a 00 2b 97 9a c0 00 00 30 00 Oct 15 20:50:46 localhost kernel: blk_update_request: I/O error, dev sda, sector 731355840 Oct 15 20:50:46 localhost kernel: XFS (dm-1): metadata I/O error: block 0x297d6ac0 (“xlog_iodone”) error 5 numblks 64 Oct 15 20:50:46 localhost kernel: XFS (dm-1): xfs_do_force_shutdown(0x2) called from line 1221 of file fs/xfs/xfs_log.c. Return address = 0x

c05d7c30
Oct 15 20:50:46 localhost kernel: XFS (dm-1): Log I/O Error Detected. Shutting down filesystem Oct 15 20:50:46 localhost kernel: XFS (dm-1): Please umount the filesystem and rectify the problem(s)

三、确认磁盘故障

3.1.重启主机进入RAID卡管理界面

接显示器或者通过服务器BMC管理口打开虚拟控制台，在启动到RAID界面时根据提示信息按快捷键“Ctrl+C”进入RAID卡管理界面。本例为LSI SAS3008 RAID卡，不同类型的卡快捷方式有所不同，根据页面实际提示为准。

3.2 回车进入SAS 3008卡进行操作

3.3 选择RAID Properties选项

3.4 选择“View Existing Volume” 查看已存在的卷信息

3.5 选择“Manager Volume”管理当前的卷

当前RAID1未发现有磁盘报错的信息（有坏道但不报出来，东芝这一批硬盘特性）。

3.6 选择“Consistency Check”进行一致性检查

在容错虚拟磁盘系统中，需要定期进行一致性检查。一致性检查将对RAID1/10阵列中的冗余数据的正确性和有效性进行检查。该操作对系统正常运行无影响，根据提示输入“Y”开始检查。

检查的过程根据数据的大小时间不一，一般在几十分钟左右。

3.7 结果展示

一致性检查完成后打印“PermDegrd”和“Bad block table full”，“PermDegrd”的全写为“Permanently Degraded”，即永久降级。PermDegrd的定义为：当硬盘的Bad Block Table中记录了超过64个连续坏块后，firmware将标示这块硬盘的RAID状态为“PermDegrd”。

回退到第四步，发现“Slot 1”磁盘状态为“Failed”，此时坏盘状态已打印出来。

四、根因分析

服务器的两块硬盘都经受了不同程度的损伤。一个硬盘已经Fail；另一个硬盘的连续坏块也达到很高的状态；硬盘这种状态时，只能进行读写操作，但是已不能再重构RAID;故新硬盘无法与之同步。

五、结论、解决方案及效果

定位结论：
RAID 1主成员盘连续坏块大于或等于64个，导致RAID进入永久降级状态。

解决方案：
处于永久降级状态的RAID组，不建议继续使用；将硬盘数据备份后更换RAID组内所有硬盘，新建RAID组并导入备份数据。

六、报修服务器厂家

电话联系服务器维护厂家进行报修，请厂家工程师带着新磁盘上门操作磁盘的更换及数据的同步。

七、SAS 9631-8i 操作参考

光标选择RAID10 行，按F2，选择Consistency Check –>start 回车，启动检查任务。

更多文章请关注本公众号

文件系统错误(文件系统Input/output error故障分析)

文件系统错误相关文章

您可能感兴趣