IT用語: カオスエンジニアリングとは|意図的に障害を起こして耐障害性を高める
本番環境に意図的な障害を注入しシステムの弱点を発見するカオスエンジニアリングの概念とChaos Monkeyを解説。
カオスエンジニアリングとは
カオスエンジニアリングは、本番環境または本番に近い環境に意図的な障害(サーバーシャットダウン・ネットワーク遮断・レイテンシ注入等)を起こし、システムがどう反応するかを観察する実験手法です。Netflixが開発した「Chaos Monkey」ツールが有名で、本番環境のサーバーをランダムに強制終了します。
なぜ本番で障害を起こすのか?
「ステージング環境でのテストをパスしたシステムが、本番では想定外の障害モードを示す」ことはよくあります。制御された条件で意図的に障害を発生させ、弱点を発見・修正することで、実際の障害に対する耐性を高めます。
「ゲームデー」とは
チーム全体で計画的に障害シナリオをシミュレートするイベントです。障害発生→検知→対応のプロセスを演習し、インシデント対応手順の改善と、チームの練度向上を図ります。AWSやGoogleも定期的に実施しています。
関連する用語 (DevOps)
全58件を見るSAST
Static Application Security Testing(静的アプリケーションセキュリティテスト)の略。ソースコードを実行せずに静的解析して脆弱性を検出する手法。SonarQube・Checkmarx等が代表的ツール。
IT用語: GitOpsとは|Gitをインフラ・デプロイの唯一の真実として使う手法
Gitリポジトリの状態をインフラの望ましい状態として、差分を自動的に本番環境に反映するGitOpsの仕組みを解説。
DevSecOps
DevOpsのプロセスにセキュリティ(Sec)を統合した開発文化。開発・テスト・デプロイの各フェーズにセキュリティチェックを組み込み、安全なシステムを継続的に提供する。SAST・DAST等のツールが活用される。
SLO
Service Level Objective(サービスレベル目標)の略。システムの可用性・応答時間などの目標値を定量的に設定したもの。SRE文化における運用品質の指標。例:月間稼働率99.9%。
Ansible
構成管理・プロビジョニング自動化ツール。YAMLで記述したPlaybookをエージェントレスで実行し、サーバーの設定を一元管理できる。インフラの自動化とべき等性の確保が特徴。
Lambda
AWSのサーバーレス関数実行サービス(Function as a Service)。コードをアップロードするだけで実行環境を自動管理し、実行時間のみの課金。イベントドリブンな処理やAPIバックエンドに多用される。