可靠性最佳实践

标识符 最佳实践
R.1 以合理的可靠性方法为目标 - 越高并不意味着越好。 为高可用性配置面向内部的系统听起来很合理,但如果维护更大的基础设施的运营负担分散了组织目标,提高可靠性就会造成成本过高。 与利益相关方仔细确定恢复时间预期。
R.2 使用受支持的工具定期进行系统备份,并制定定期测试备份恢复的计划。 未经测试的备份工作流会造成系统恢复失败的风险。
R.3 了解系统可靠性策略中最薄弱的环节,这可能是技术、人员或流程差距。 系统正常运行时间和 SLA 保证受到其最薄弱的支持系统或组件的限制。
R.4 使用较低的环境镜像配置和测试可靠性方法,例如高可用性和备份过程。
R.5 定义上报路径,确保问题快速上报给正确的员工,并可以采取措施解决任何问题。
R.6 了解用户工作流 - 虽然服务可能会根据简单的运行状况检查报告它正在工作,但如果用户的工作流不成功,他们通常会将其视为系统中断。 了解真实的用户工作流有助于快速缩小有问题的服务或组件的范围,并解决他们看到的问题。
在本主题中
Top