masalibの日記

システム開発、運用と猫の写真ブログです

サーバーの監視は内部と外部でするべき

状況

自社のサイトに繋がらないというエラーが発生しました
原因はサーバーの上位の仮想ルーターが落ちてしまった為でした

監視の状況

内部でサーバーの監視をしていたのですが
ルーターが落ちた場合を想定していませんでした
これは別の会社が管理しているため、そちらで監視してくれる物だと思い込んでいました

現実なんてこんなものさ

実際は、ルータの監視なんてまったくしておらず
フェイルオーバーもおきないというシステムとしていけない状況が発生しました

最低の状態

ルーターが落ちると内部からおこなっている監視のアラートメールが一切飛びません
その為、全く気がつかない状況が発生して、お客様のクレームで発覚
という最低な状態になりました

原因

クラウドで使っている仮想ルータが落ちていたらしい
ロードバランスのログに
xen_netfront: xennet: skb rides the rocket: **slots(**は2桁の数字)
とでていたらしい
フェイルオーバーしなかった原因は不明っぽい

今後について

別の会社にはクレームをいれるのですが
その会社を信用できないのでこちらでも外部監視をおこなう事で
お客様のクレームで気がつくという状況をさけたいです
原因がわからないという形の迷宮にはいったら
フェイルオーバーされない前提で考えた方がいいかも
この別の会社を切りたいが、
グローバルIPを管理してもらっているので切れない

最後に

思い込みはダメよね
フェイルオーバーテストは重要!!