Chaos Engineering
本番システムに意図的に障害を注入し、システムの回復力(レジリエンシー)を検証する実践手法。Netflixが提唱しChaos Monkeyで有名。「障害は必ず起きる」という前提のもと、弱点を事前に発見する。
Chaos Engineeringとは?
本番システムに意図的に障害を注入し、システムの回復力(レジリエンシー)を検証する実践手法。Netflixが提唱しChaos Monkeyで有名。「障害は必ず起きる」という前提のもと、弱点を事前に発見する。
Chaos Engineeringが重要な理由
DevOpsエンジニアにとって Chaos Engineering は現代のインフラ・開発運用において核心的な技術です。クラウドネイティブな環境では、この概念と実装スキルを持つことが標準的に求められるようになっています。
主要なポイント
- 自動化: Chaos Engineeringを活用することで、繰り返し作業をコード化・自動化できます
- スケーラビリティ: 大規模システムの運用・管理が効率化されます
- 信頼性: 人的ミスを減らし、一貫した品質を保つことができます
実務での活用場面
Chaos Engineeringは以下のような場面で使われます:
- CI/CDパイプラインの構築・改善
- インフラのコード化(IaC)
- コンテナ環境・クラウドサービスの管理
まとめ
Chaos Engineering は現代のDevOps・SRE業務に不可欠な技術です。各種ITツールも活用しながら、実践的なスキルを積み上げていきましょう。
関連用語
- SRE
- レジリエンシー
- 可用性
- 障害
関連する用語 (DevOps)
全58件を見るAPIゲートウェイ
クライアントと複数のバックエンドサービスの間に立つ単一の入口(エントリポイント)。認証・レート制限・ルーティング・ロギング・キャッシュを一元管理し、APIの公開・保護・管理を行う。
IaC(Infrastructure as Code)
インフラ構成をコードとして記述・管理する手法。Terraform・AWS CDK・Ansibleなどのツールを使い、インフラの再現性・バージョン管理・自動化を実現する。
DAST
Dynamic Application Security Testing(動的アプリケーションセキュリティテスト)の略。実際にアプリを実行しながら外部から攻撃を模倣して脆弱性を検出する手法。OWASP ZAPやBurp Suiteが代表的。
Fargate
AWSのサーバーレスコンテナ実行エンジン。EC2インスタンスを意識することなくコンテナを実行できる。ECSやEKSとともに使用し、インフラ管理の負荷を大幅に削減できる。
Prometheus
オープンソースの監視・アラートツール。時系列データベースにメトリクスを収集し、PromQL(独自クエリ言語)で分析できる。Kubernetesとの親和性が高く、Grafanaと組み合わせて可視化するのが一般的。
ECS
Amazon Elastic Container Serviceの略。AWSが提供するフルマネージドのコンテナオーケストレーションサービス。FargateとEC2の2つの起動タイプがあり、EC2を管理せずにコンテナを実行できる。