2009/01/29(木)ZFS のステータス監視

サーバが落ちる件について。

今日、まさにサーバがゆっくり死んでいく場面に居合わせた。
ZFS が原因ではないらしい。少なくとも今回は。

ヤヴァイ!ってことで完全に止まる前にとりあえず再起動を掛けることに。
すると...
Jan 30 00:46:24 blues kernel: ad10: TIMEOUT - READ_DMA48 retrying (0 retries lef
t) LBA=2930275872
Jan 30 00:46:33 blues kernel: ad10: WARNING - SETFEATURES SET TRANSFER MODE task
queue timeout - completing request directly
Jan 30 00:46:37 blues kernel: ad10: WARNING - SETFEATURES SET TRANSFER MODE task
queue timeout - completing request directly
Jan 30 00:46:41 blues kernel: ad10: WARNING - SETFEATURES ENABLE RCACHE taskqueu
e timeout - completing request directly
Jan 30 00:46:45 blues kernel: ad10: WARNING - SETFEATURES ENABLE WCACHE taskqueu
e timeout - completing request directly
Jan 30 00:46:49 blues kernel: ad10: WARNING - SET_MULTI taskqueue timeout - comp
leting request directly
Jan 30 00:46:49 blues kernel: ad10: FAILURE - READ_DMA48 timed out LBA=293027587
2
Jan 30 00:46:49 blues root: ZFS: vdev I/O failure, zpool=common path=/dev/ad10 o
ffset=1500301246464 size=114688 error=5
どうやらディスクが応答しないようです。
ちなみにディスクは今をときめく Seagateの不具合の影響はないとされているファームウェアのもの。(型番自体はヒットしてる)

ZFS はむしろ頑張っていてくれた様子。
とはいえ、このディスクに変える前から緩やかな突然死は発生していたのでディスクが悪いとは言い切れない。再起動すると何事もなく動くし。
マザーボード、ディスク共に割と新しいもので故障という線は考えにくいが、ディスクが変わっていることから一番ありうるのはマザーの初期不良だ。ディスクの S.M.A.R.T のエラーログにも何も記録されていないので、これを信じるならディスクではなく結線かディスクコントローラに問題がある可能性が高く、マザーの異常の線が濃くなる。

しかし、あえて言おう。

きっと Seagate がダメなんだ!
数日前からログが出てるのに気づかない俺がダメだ

RAID を組んで物理ディスクの状態を監視しないとダメだよ、といういいお手本ですね。

zpool status -x
の結果を見るようなスクリプトを仕込めばよさそうだ。

2009/01/21(水)Seagate HDD で不具合だそうな

http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?Tab=search&Module=selfservice&TargetLanguage=selfservice&DocId=207931&NewLang=en

3本当たった。

FreeBSD のディスクで2本該当モデルがあったけど、ファームウェアが対象外らしい。
ad4: 286167MB <Seagate ST3300622AS 3.AAH> at ata2-master SATA300
ad6: 1430799MB <Seagate ST31500341AS CC1G> at ata3-master SATA300
ad8: 305245MB <Seagate ST3320620AS 3.AAE> at ata4-master SATA150
ad10: 1430799MB <Seagate ST31500341AS CC1G> at ata5-master SATA300

この 2本で RAID1 を組んでるので該当してたらかなり危ない...。
> zpool status
Password:
  pool: common
 state: ONLINE
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        common      ONLINE       0     0     0
          mirror    ONLINE       0     0     0
            ad6     ONLINE       0     0     0
            ad10    ONLINE       0     0     0

errors: No known data errors
当たったのは ESXi 用に用意したマシンの 2本。ST3500320NS ファームウェアは SN05 でビンゴ。どうりで起動しない。
あと、こないだまで使ってた1本。

つうか、ナレッジベースに公開日の情報が入ってないってどうなのよ。