再起動前に情報収集を!!
障害が発生すると速やかなサービス復旧の為にサーバーを再起動しがちですが….
Webサーバーやアプリケーションサーバーで負荷分散から単独で切り離せる様になっていれば、まず最初に行うことはサービスからの切り離しです。
環境によってロードバランサー側から切り離す必要があります。
間違ってもTCPのタイムアウトが必要となる様な切り離し方を行ってはいけません。
たとえば、
電源を落とす
ネットワークから切り離す(物理的、論理的)
などです。
トラフィックが集中しているときに、このようなことを行えばロードバランサー側からWebサーバーへの接続出来ないと判断するまでに1分ほどかかってしまい、お客様を待たせてしまう場合があるからです。
このような事柄を把握せずにハードウェアのメンテナンスなどを行う様な会社に運用の委託をしてもいけません。
現状を改善できない場合には地道に教育をしていく必要があります。
サービス復旧が最優先ではありますが報告書を作成できるだけの資料を必ず残せるようにしておくことも大切です。