可靠性支柱

所有企业系统都应该是可靠的,但该术语的定义可能会因使用案例、业务关键性和定义系统的集成而有很大差异。 尽管可靠性与其他术语相关,例如业务连续性、故障管理、弹性、高可用性、稳定性、正常运行时间、容错或冗余,但该支柱的标题为可靠性,以捕捉组织拥有的广泛定义。 本节中最重要的建议是将可靠系统的定义视为高度主观。 每个组织都是不同的,具有不同的工作流程、数据和预期,定义和实现可靠性的过程对于每个组织来说都是独一无二的。

架构完善的系统旨在可靠地提供业务需求所需的功能、功能和工作流程。 这并不意味着每个系统都必须具有高可用性和高度冗余才能是架构完善的系统,因为对于某些系统来说,这将表明复杂程度或成本不适当,从而对系统产生负面的整体影响。

可靠性通常通过服务级别协议 (SLA) 的概念来衡量。 SLA 是指对系统的业务用户和客户端的承诺,即始终保持某种服务水平。 SLA 通常通过特定的性能目标来定义,例如“所有请求必须在 3 秒内响应”,或者正常运行时间和“可用性”级别。 可用性 SLA 定义:

  • 一组服务、应用程序或工作流
  • 它们的预期可用时间段,通常每周 7 天、每天 24 小时
  • 定义违反 SLA 的条件,例如重复失败、请求缓慢、错误或用户体验下降

SLA 是企业系统的常见要求,但架构完善的系统侧重于正确定义、监控和响应 SLA,而不是追求更高数字目标的简单定义。 这些细节的定义是一个复杂的过程,它突出了需要讨论可靠性的规划和设计的深度。

当系统的设计需要满足一定程度的可靠性时,它们可能会结合使用多种技术来实现此目标,包括:

  1. 高可用性 - 此做法为提供冗余软件组件(通常为地理上冗余),这些组件在发生中断时提供相同的服务
  2. 备份 - 此做法为定期备份系统状态、重要细节、数据或服务以供将来恢复
  3. 灾难恢复 - 此过程旨在规划不常见但会造成中断的场景,并确定在场景发生时快速重建站点或系统的方法
  4. 监测 - 使用有效的监控及早发现潜在问题,测量系统经历的停机时间,并将这些结果报告为事后摘要。 这与可观测性支柱密切相关

本节将更详细地讨论上述所有技术方法,并概述选项、建议和方法。

在本主题中
Top