運用設計

インシデント”初動30分”一本勝負|“迷いゼロ”で動くための実務ガイド


– こんな方におすすめ –

コマースサイト・基幹システムを保有している30名から1,000名規模の一般的な民間企業の情報システム部門の実務担当者の方。情報セキュリティ・システム監査・法務の担当者の方。また運用設計を担当しているシステムコンサルタントの方。

– この記事の目的と範囲 –

障害やセキュリティインシデント発生時の初動行動を示します。オンプレ/社内SaaS/端末・ネットワークなど環境を問わず適用できます。特定の製品に依存せず、初動の役割・手順・KPIに焦点を当てています。

– 要約ポイント –

・インシデント検知の最初の30分は「対応の任命→重大度判定→被害縮小→定期報告」を機械的に回す
・定期連絡方法と記録方法をあらかじめテンプレート化し統一させる。
・証跡はその場で確保し、後で振り返りができるように記録を残す。
・KPI(Key Performance Indicator)は「MTTA(平均確認時間)/MTTR(平均対応時間)」と「記録欠損率」で対応品質を測定する。


初動30分」がなぜ重要なのか

インシデント検知の発生直後というのは、被害の影響範囲が徐々に広がりやすく発生から最初の30分で「対応の任命→重大度判定→回避策実行」の3つの手を打てるかどうかで被害の影響度合いを左右します。

インシデント発生直後は状況を正確に把握するための情報鮮度が新しく、初動が遅くなればなるほどログ情報やユーザからの状況確認も時間の経過とともに古くなり最終的には失われてしまいます。そのため、30分以内の初動と証跡の確保は、後続の原因の究明と再発防止策の精度を高めます。

「初動30分ルール」を実施できるようにするためにも、あらかじめ合意をとっておくことで無駄なコミュニケーションコストや合意形成コストを最小化せることができます。インシデント対応に集中するためにも、定期的な経過報告の中で「今わかっていること/次はいつ報告を行うのか」を共有することで関係者から個別の問い合わせも大幅に減らすことができます。

「インシデント検知、初動30分」というルールを組織として決めておくことが、その場その場で考える誤った対処の連鎖を止めることができ、また一次切り分けや回避対応の早期判断、二次障害を避けることができます。

初動はなぜ「30分」なのか

「対応の任命→重大度判定→回避策実行」を実施する際、初動30分はさらに時間を区切ることができます。初動30分を「5-15-30分」ルールで区切ることで初動時のタスクを定義にすることができます。初動を30分とし、この時間幅で初動を開始する合理的な理由は次の通りです。

① 被害の拡大を最も最小化できる時間幅であること
② 情報の鮮度が新しく、手がかりを最も確保できる時間幅であること
③ 報告タイミングを5分、15分、30分と決めておくことで関係者からの個別問い合わせを減らせること
④ KPIと相性が良いこと


企業の事業継続性の確保の観点から、被害の拡大や二次被害を増やさないためにも、初動開始時間をあらかじめ定めておくことは運用設計する上で重要な要件の1つなります。初動が遅れると以下のような悪化パターンが考えられます。

① 被害影響の範囲拡大
② 証跡情報の欠損による原因の特定が不明
③ 意思決定の混乱
④ 復旧後の再発防止策の機能不全


初動が遅れれば遅れるほど解決までの時間が伸びることになり、定期的な情報報告の更新がなければ問い合わせの急増により解決のための作業が圧迫される結果となります。

1

2 3 4
IT Ops & Governance Lab
  1. インシデント”初動30分”一本勝負|“迷いゼロ”で動くための実務ガイド

TOP