どきどきぱいぱいん

主に障害解析のノウハウをつらつらと

障害発生、解析の心構え

  • 落ち着こう
     障害発生時、人により様々な状況にあると思います。
     商用作業中に想定外のことが発生した、何もしていないのにシステムが急に止まった、正しく設定したはずなのに動作しない等等。
     焦った状態で作業をしてもろくなことは起きないです。
     障害発生時こそ、二次障害を引き起こさないように、落ち着いて慎重に作業を実施しましょう。

  • 人を疑おう
     この場合、自分も含みます。
     一言に障害と言っても様々な障害がありますが、何らかの作業中に発生した障害は、操作ミスや設定ミスに起因する、所謂ヒューマンエラーの割合が多いです。
     時間をかけて調査を行えば判明しますが、時間が無い中作業を行っていることが多いと思います。
     サポートに解析依頼や、ソース解析を行う前に、オペレータや作業者が取った行動、コマンドの操作履歴を確認しましょう。(ターミナルエミュレーターを使用する場合、必ずログを取るように心がけましょう)
     また、設定ファイルを編集する場合は、必ず差分確認、切り戻しを行えるようにバックアップを取っておきましょう。

  • ログを取得しよう
     障害発生の原因が人じゃない場合、原因を調査する必要があります。
     その場合、障害発生時の状況や、障害解析に必要なログが何も無ければ調査は出来ません。
     (逆に障害発生に繋がったピンポイントのログがあれば障害解析はすぐに終わります)
     画面に表示されているエラーダイアログ、メッセージは必ず記録しましょう。
     また、ダンプファイル、syslog、アプリケーションログ等は復旧前に退避することを進めます。
    (ログが消えないとわかっている場合はさっさと復旧しましょう)

     また、障害解析には、事象発生や、操作を実施した時間が重要な場合があります。
     そのため、上記記録とあわせて出来るだけ詳細に時間を記録しましょう。
     その際、障害の発生したシステムの時間で記録した方が良いです。
     (出来れば標準時間とのズレも記録していた方が良いです)