| 标识符 | 最佳实践 |
|---|---|
| R.1 | 以合理的可靠性方法为目标 - 越高并不意味着越好。 为高可用性配置面向内部的系统听起来很合理,但如果维护更大的基础设施的运营负担分散了组织目标,提高可靠性就会造成成本过高。 与利益相关方仔细确定恢复时间预期。 |
| R.2 | 使用受支持的工具定期进行系统备份,并制定定期测试备份恢复的计划。 未经测试的备份工作流会造成系统恢复失败的风险。 |
| R.3 | 了解系统可靠性策略中最薄弱的环节,这可能是技术、人员或流程差距。 系统正常运行时间和 SLA 保证受到其最薄弱的支持系统或组件的限制。 |
| R.4 | 使用较低的环境镜像配置和测试可靠性方法,例如高可用性和备份过程。 |
| R.5 | 定义上报路径,确保问题快速上报给正确的员工,并可以采取措施解决任何问题。 |
| R.6 | 了解用户工作流 - 虽然服务可能会根据简单的运行状况检查报告它正在工作,但如果用户的工作流不成功,他们通常会将其视为系统中断。 了解真实的用户工作流有助于快速缩小有问题的服务或组件的范围,并解决他们看到的问题。 |