状況
自社のサイトに繋がらないというエラーが発生しました
原因はサーバーの上位の仮想ルーターが落ちてしまった為でした
監視の状況
内部でサーバーの監視をしていたのですが
ルーターが落ちた場合を想定していませんでした
これは別の会社が管理しているため、そちらで監視してくれる物だと思い込んでいました
現実なんてこんなものさ
実際は、ルータの監視なんてまったくしておらず
フェイルオーバーもおきないというシステムとしていけない状況が発生しました
最低の状態
ルーターが落ちると内部からおこなっている監視のアラートメールが一切飛びません
その為、全く気がつかない状況が発生して、お客様のクレームで発覚
という最低な状態になりました
原因
クラウドで使っている仮想ルータが落ちていたらしい
ロードバランスのログに
xen_netfront: xennet: skb rides the rocket: **slots(**は2桁の数字)
とでていたらしい
フェイルオーバーしなかった原因は不明っぽい
今後について
別の会社にはクレームをいれるのですが
その会社を信用できないのでこちらでも外部監視をおこなう事で
お客様のクレームで気がつくという状況をさけたいです
原因がわからないという形の迷宮にはいったら
フェイルオーバーされない前提で考えた方がいいかも
この別の会社を切りたいが、
グローバルIPを管理してもらっているので切れない
最後に
思い込みはダメよね
フェイルオーバーテストは重要!!