IT用語: カオスエンジニアリングとは|意図的に障害を起こして耐障害性を高める
本番環境に意図的な障害を注入しシステムの弱点を発見するカオスエンジニアリングの概念とChaos Monkeyを解説。
カオスエンジニアリングとは
カオスエンジニアリングは、本番環境または本番に近い環境に意図的な障害(サーバーシャットダウン・ネットワーク遮断・レイテンシ注入等)を起こし、システムがどう反応するかを観察する実験手法です。Netflixが開発した「Chaos Monkey」ツールが有名で、本番環境のサーバーをランダムに強制終了します。
なぜ本番で障害を起こすのか?
「ステージング環境でのテストをパスしたシステムが、本番では想定外の障害モードを示す」ことはよくあります。制御された条件で意図的に障害を発生させ、弱点を発見・修正することで、実際の障害に対する耐性を高めます。
「ゲームデー」とは
チーム全体で計画的に障害シナリオをシミュレートするイベントです。障害発生→検知→対応のプロセスを演習し、インシデント対応手順の改善と、チームの練度向上を図ります。AWSやGoogleも定期的に実施しています。
関連する用語 (DevOps)
全58件を見るArgoCD
Kubernetesのための宣言的GitOps継続デリバリーツール。Gitリポジトリ上のマニフェストと実際のK8sクラスタの状態を常に同期させる。変更を検知して自動でデプロイする。
Blue-Green Deployment
ゼロダウンタイムデプロイ戦略の一つ。本番環境(Blue)と新バージョン(Green)を並行して稼働させ、トラフィックを切り替えてデプロイする。問題発生時に即座に切り戻せる。
Secret
Kubernetesでパスワード・APIキー・TLS証明書などの機密情報を管理するリソース。Base64エンコードで保存され、Podへのマウントや環境変数での参照が可能。本番ではVault等の外部シークレット管理との連携が推奨される。
GitOps
Gitをシステムの信頼できる唯一の情報源(Single Source of Truth)として扱う運用手法。インフラやアプリの設定変更をGitのPull Requestで管理し、自動デプロイを行う。ArgoCD・Fluxが普及。
Lambda
AWSのサーバーレス関数実行サービス(Function as a Service)。コードをアップロードするだけで実行環境を自動管理し、実行時間のみの課金。イベントドリブンな処理やAPIバックエンドに多用される。
Helm
KubernetesのパッケージマネージャーAptやyumのK8s版。Helmチャートと呼ばれるテンプレートで複雑なK8sリソースを一括管理・デプロイできる。バージョン管理やロールバックも容易。