検討3. 事後の振り返り方を決める
事後の振り返りでは、インシデントから得られた「再発防止に効く学び」を次の運用へ確実に反映することを目的とします。網羅的な原因究明よりも、再発防止に直結する即効性を優先し、短時間で合意できる改善策を決めます。具体的には、発生のきっかけ(直近の変更内容や運用上の手順逸脱など)、影響の実態(影響範囲・影響人数・時間)、初動行動で”有効だった”/”効果が薄かった”内容、記録や証跡の不足点、報告の更新間隔の妥当性などを簡潔に整理します。
そのうえで、 暫定対策と恒久対応を区別し、責任者・期限・検証方法(KPIや確認手順)を明記して新たな課題管理としてチケット化します。合意した改善内容は、運用設計(手順・連絡テンプレ・しきい値)へ反映し、次回の定例レビューで定着を確認します。個人の責を問うのではなく、プロセス改善に焦点を当てることで、学びを組織知として蓄積していきます。
●振り返りの目的
① 再発防止
直接的原因と背景要因とを切り分け、恒久対策を確認します。
② 影響の可視化
影響を受けた人数や時間、業務に影響を及ぼした結果を定量化し関係者との共通認識を確認します。
③ 手順・監視手段の再確認
運用設計(手順)や監視閾値の見直し、通知間隔の再確認をします。
④ 証跡の確認
インシデントチケットと共に確保をした証跡情報がシステム監査に耐えうる状態か確認します。
⑤ KPI情報の更新
MTTA(平均確認時間)/MTTR(平均対応時間)や証跡情報の欠損率など更新し確認します。
⑥ 合意と責任の明確化
対策ごとに期限・担当者を確定し、追跡チケットを発行します。
検討4. KPI(重要業績評価指標)
KPIによる指標の管理は、インシデント管理を見える化→標準化→改善のサイクルに乗せることが可能となり、運用品質を底上げすることができます。数字があることで「どこが遅い/弱い」「何を直せば効く」などボトルネックが即座に特定でき、場当たり的な対応から脱却することができます。定量的に現状の品質を把握し、定期的な見直しによりインシデント対応は再発されにくくなります。
●KPI指標(参考)
① MTTA/MTTR:気づきと復旧の速さ。例:認識を5分以内、復旧を60分を目標
② 報告間隔遵守率:報告更新の遵守率。例:問い合わせ急増を抑えることを目標
③ 一次回避適用率:遮断・ロールバック・切替の実施率。被害拡大を止めることを目標
④ 記録欠損率:必須フィールド未記入の割合
⑤ SLA遵守率:契約で取り決めた目標時間内にインシデント対応を完了できた割合
KPIは品質の計基盤のような位置付けですが、現状を把握することで今後の運用改善にも役立てることが可能になります。
●品質向上の改善(参考)
① 検知の品質向上のための閾値の見直し
② 運用手順書(WOP)の見直し
③ 資源配分の根拠算出
④ 組織内での合意取り付けプロセスの見直し
週次定例会ではKPI状況の報告、月次報告会では投資判断の場とすることで改善のループの形を作り出すことができます。このループを継続することで、インシデント対応はより迅速に、判断も揺れ動かず、再発しにくくなっていきます。