ZFS のステータス監視2009/01/29(木)
今日、まさにサーバがゆっくり死んでいく場面に居合わせた。
ZFS が原因ではないらしい。少なくとも今回は。
ヤヴァイ!ってことで完全に止まる前にとりあえず再起動を掛けることに。
すると...
Jan 30 00:46:24 blues kernel: ad10: TIMEOUT - READ_DMA48 retrying (0 retries lef t) LBA=2930275872 Jan 30 00:46:33 blues kernel: ad10: WARNING - SETFEATURES SET TRANSFER MODE task queue timeout - completing request directly Jan 30 00:46:37 blues kernel: ad10: WARNING - SETFEATURES SET TRANSFER MODE task queue timeout - completing request directly Jan 30 00:46:41 blues kernel: ad10: WARNING - SETFEATURES ENABLE RCACHE taskqueu e timeout - completing request directly Jan 30 00:46:45 blues kernel: ad10: WARNING - SETFEATURES ENABLE WCACHE taskqueu e timeout - completing request directly Jan 30 00:46:49 blues kernel: ad10: WARNING - SET_MULTI taskqueue timeout - comp leting request directly Jan 30 00:46:49 blues kernel: ad10: FAILURE - READ_DMA48 timed out LBA=293027587 2 Jan 30 00:46:49 blues root: ZFS: vdev I/O failure, zpool=common path=/dev/ad10 o ffset=1500301246464 size=114688 error=5どうやらディスクが応答しないようです。
ちなみにディスクは今をときめく Seagateの不具合の影響はないとされているファームウェアのもの。(型番自体はヒットしてる)
ZFS はむしろ頑張っていてくれた様子。
とはいえ、このディスクに変える前から緩やかな突然死は発生していたのでディスクが悪いとは言い切れない。再起動すると何事もなく動くし。
マザーボード、ディスク共に割と新しいもので故障という線は考えにくいが、ディスクが変わっていることから一番ありうるのはマザーの初期不良だ。ディスクの S.M.A.R.T のエラーログにも何も記録されていないので、これを信じるならディスクではなく結線かディスクコントローラに問題がある可能性が高く、マザーの異常の線が濃くなる。
しかし、あえて言おう。
きっと Seagate がダメなんだ!
数日前からログが出てるのに気づかない俺がダメだ
RAID を組んで物理ディスクの状態を監視しないとダメだよ、といういいお手本ですね。
zpool status -x
の結果を見るようなスクリプトを仕込めばよさそうだ。
Seagate HDD で不具合だそうな2009/01/21(水)
3本当たった。
FreeBSD のディスクで2本該当モデルがあったけど、ファームウェアが対象外らしい。
ad4: 286167MB <Seagate ST3300622AS 3.AAH> at ata2-master SATA300 ad6: 1430799MB <Seagate ST31500341AS CC1G> at ata3-master SATA300 ad8: 305245MB <Seagate ST3320620AS 3.AAE> at ata4-master SATA150 ad10: 1430799MB <Seagate ST31500341AS CC1G> at ata5-master SATA300
この 2本で RAID1 を組んでるので該当してたらかなり危ない...。
> zpool status Password: pool: common state: ONLINE scrub: none requested config: NAME STATE READ WRITE CKSUM common ONLINE 0 0 0 mirror ONLINE 0 0 0 ad6 ONLINE 0 0 0 ad10 ONLINE 0 0 0 errors: No known data errors当たったのは ESXi 用に用意したマシンの 2本。ST3500320NS ファームウェアは SN05 でビンゴ。どうりで起動しない。
あと、こないだまで使ってた1本。
つうか、ナレッジベースに公開日の情報が入ってないってどうなのよ。
誰も得しないことはやめようよ2009/01/14(水)
Vista に対するネガティブキャンペーンを FSF でやってたらしい。
Windows の代替になるフリーな OS があるなら意味もあるかもわからんけど、ないよね。
RMS 信者の暴走としか思えん。
Vista が失敗作なのはまぁ...。
Firefoxが2008/12/31(水)
拡大、縮小の掛かった画像の表示がおかしくなる。
背景画像が原寸大でないサイトの表示とか悲惨な状態です。デスクトップの一部が画像部分に表示されてしまうという意味不明状態。
Firefox自体をビルドしなおしても症状が変わらない。
特にバグ報告とかはないようなのでうち固有の問題か。
gtk か glib ごとビルドしなおしたら治るか?
JavaScript のパフォーマンスが悪いのも FreeBSD の Firefox だけだったのでなんかがおかしくなってる模様。
FreeBSD の中身も年末大掃除するかねぇ。
ディスクが危ない2008/12/12(金)
カッツンカッツンいって BIOS すら現れない状態。でもしばらく待ってると無事起動する。
BIOS までいかないので、どのディスクかもわからないのが怖い。
コンデンサが死にかけで電力不足か、モーター自体が劣化してスピンアップしきれないように思われる。もしくは、USB機器を一個追加したので単純な電源の電力不足?
電源の力不足の可能性も否めない。
電力不足が原因なら、ディスクを2本抜く予定だったので急いでバックアップして抜こう。
どちらにしても、バックアップすることが先決のようです。
不幸中の幸いとして、マイドキュメントを数日前にファイルサーバ上に移動していたので整理されてないデータをまとめて失う危険は少ない。