信頼性の柱

すべてのエンタープライズ システムでは信頼性の高さが期待されていますが、その意味合いはシステムを定義する用途、ビジネスの重要度、および統合によって大きく異なります。 信頼性は、ビジネス継続性、障害管理、レジリエンス、高可用性、安定性、稼働時間、フォールト トレランス、冗長性などの他の用語に関連していますが、この柱は、組織が持つ幅広い定義を網羅するために信頼性と題されています。 このセクションで最も重要な推奨事項は、信頼性の高いシステムの定義を非常に主観的であると認識することです。 各組織はそれぞれ異なり、ワークフロー、データ、期待も異なります。信頼性を定義して達成するプロセスも組織によって異なります。

適切に設計されたシステムは、ビジネス要件が求める能力、機能、ワークフローを確実に提供するように設計されています。 すべてのシステムが適切に設計されるためには、高可用性と高冗長性が必要であるという意味ではありません。一部のシステムでは、そのような要件は妥当ではない複雑さやコストを意味する場合があり、システム全体に悪影響を与えかねないからです。

信頼性は、多くの場合、SLA (サービス レベル アグリーメント) の概念を通じて測定されます。 SLA とは、システムのビジネス ユーザーと顧客に対して、常に一定レベルのサービスを維持すると約束することを指します。 SLA は通常、「すべてのリクエストは 3 秒以内に応答しなければならない」などの具体的なパフォーマンス目標や、稼働時間と「可用性」レベルを通じて定義されます。 可用性 SLA では、次のものを定義します。

  • 一連のサービス、アプリケーション、またはワークフロー
  • 利用可能であると予想される期間、通常は 1 日 24 時間、週 7 日
  • SLA 違反を定義する条件 (繰り返し発生する障害、リクエストの遅延、エラー、ユーザー エクスペリエンスの低下など)

SLA はエンタープライズ システムの一般的な要件ですが、適切に設計されたシステムでは、単に高い数値目標を設定するだけでなく、SLA を適切に定義し、監視し、応答することに重点を置いています。 これらの詳細を定義することは複雑なプロセスであり、信頼性に関する議論に必要な計画と設計の深さを浮き彫りにします。

システムが一定レベルの信頼性を実現するように設計されている場合、それを実現するために、次のような複数の手法を組み合わせることがあります。

  1. 高可用性 – 冗長なソフトウェア コンポーネント (多くの場合は地理的に冗長化されている) を用意し、障害発生時に同じサービスを提供する方法。
  2. バックアップ – システムの状態、重要な詳細情報、データ、またはサービスを定期的にバックアップし、将来的な回復に備える方法。
  3. 災害復旧 – めったに発生しないが、発生したら破壊的なシナリオを計画し、シナリオが発生した場合にサイトやシステムを迅速に再構築する方法を特定するプロセス。
  4. 監視 – 効果的な監視を使用して、潜在的な問題を早期に特定し、システムで発生するダウンタイムの量を測定し、その結果を事後報告のサマリーとして報告すること。 これは、可観測性の柱と密接に関連しています。

これらの各技術手法については、このセクションで、オプション、推奨事項、およびアプローチの概要とともに詳しく説明します。

このトピックの内容
Top