IT用語: SRE(サイト信頼性エンジニアリング)とは|Googleが考案した運用手法
ソフトウェアエンジニアリングの手法で運用を改善するSREの概念とSLI・SLO・SLAの関係を解説。
SRE(Site Reliability Engineering)とは
SREはGoogleが考案した、ソフトウェアエンジニアリングの手法で運用の問題を解決するアプローチです。「信頼性を保ちながらいかに速くリリースするか」のバランスをエンジニアリングで最適化します。
重要な指標
| 用語 | 意味 |
|---|---|
| SLI(Service Level Indicator) | 実際の信頼性を示す指標(例: 99.5%の可用性) |
| SLO(Service Level Objective) | 目標値(例: 可用性99.9%を目指す) |
| SLA(Service Level Agreement) | ユーザーとの契約(例: 99.5%未満なら返金) |
エラーバジェットとは
SLOとSLAの差分が「使える障害の余裕(エラーバジェット)」です。例えばSLO 99.9%なら月約43分の障害は許容範囲。バジェットが残っている間は積極的にリリースし、使い切ったら安定化を優先するという判断軸になります。
DevOpsとSREの違い
DevOpsが文化・哲学的な概念であるのに対し、SREはGoogleにおけるDevOpsの具体的実装形態です。「開発者と運用者の協力」を達成するための方法論の一つです。
関連する用語 (DevOps)
全58件を見るConfigMap
Kubernetesで設定値(接続先URLや設定パラメーター等)をコンテナから分離して管理するリソース。環境ごとに異なる設定を外出しにすることで、同一イメージを複数環境で使い回せる。
ELK Stack
Elasticsearch・Logstash・Kibanaの3ツールの組み合わせ。ログの収集(Logstash)・保存・検索(Elasticsearch)・可視化(Kibana)をセットで提供する定番ログ分析基盤。
Fluentd
オープンソースのデータ収集・転送ツール(ログアグリゲーター)。各種ソースからログを収集し、Elasticsearch・S3・Splunkへ転送できる。プラグインが豊富でログ基盤構築に広く使われる。
Blue-Green Deployment
ゼロダウンタイムデプロイ戦略の一つ。本番環境(Blue)と新バージョン(Green)を並行して稼働させ、トラフィックを切り替えてデプロイする。問題発生時に即座に切り戻せる。
RBAC
Role-Based Access Control(ロールベースアクセス制御)の略。Kubernetesでは、ユーザーやサービスアカウントに対してロールを割り当て、Kubernetes APIへのアクセス権限を細かく制御する仕組み。
APIゲートウェイ
クライアントと複数のバックエンドサービスの間に立つ単一の入口(エントリポイント)。認証・レート制限・ルーティング・ロギング・キャッシュを一元管理し、APIの公開・保護・管理を行う。