有台V100机器,最近系统会突然宕机,连接console也无响应,手动重启后进入系统,看到有如下一段报错
Aug  3 22:11:08 cool dada: [ID 107833 kern.warning] WARNING:  (dad0):
Aug 3 22:11:08 cool ATA transport failed: reason 'timeout': retrying command
Aug 3 22:11:46 cool uata: [ID 464412 kern.warning] WARNING: timeout: reset target chno = 1 targ = 3
Aug 3 22:11:08 cool ATA transport failed: reason 'timeout': retrying command
Aug 3 22:11:46 cool uata: [ID 464412 kern.warning] WARNING: timeout: reset target chno = 1 targ = 3
重启后不到一天,又一次宕机,出现同样的报错。
根据该错误信息,可判断为硬盘的马达出现故障导致工作不正常,或者硬盘的连接线有问题。由于该机器上有两个IDE位置,但只用了一块硬盘,便将硬盘换到了另一个位置。之后,系统运行了5天一直正常。
更换硬盘位置后,会导致无法进入系统,解决方法