Pilar de fiabilidad

Se espera que todos los sistemas empresariales sean fiables, pero la definición de este término puede variar significativamente en función del caso de uso, la criticidad del negocio y las integraciones que definen un sistema. Aunque la fiabilidad se relaciona con otros términos como continuidad empresarial, administración de fallos, resiliencia, alta disponibilidad, estabilidad, tiempo de actividad, tolerancia a fallos o redundancia, este pilar se titula fiabilidad para captar el amplio espectro de definiciones que tienen las organizaciones. La recomendación más importante de esta sección es considerar que la definición de un sistema fiable es muy subjetiva. Cada organización es distinta, tiene flujos de trabajo, datos y expectativas diferentes, y el proceso de definición y consecución de la fiabilidad será único para cada organización.

Los sistemas bien diseñados están concebidos para proporcionar de forma fiable las capacidades, la funcionalidad y los flujos de trabajo que exigen los requisitos empresariales. Esto no quiere decir que todos los sistemas deban ser altamente disponibles y redundantes para estar bien diseñados, porque para algunos sistemas esto indicaría un nivel inadecuado de complejidad o coste que tiene un impacto global negativo en el sistema.

A menudo, la fiabilidad se mide a través del concepto de un acuerdo de nivel de servicio (SLA). Un SLA se refiere a un compromiso con los usuarios y clientes de un sistema para mantener un nivel de servicio en todo momento. Un SLA suele definirse mediante objetivos específicos de rendimiento, como «todas las solicitudes deben responder en menos de tres segundos», o niveles de tiempo de actividad y «disponibilidad». Un SLA de disponibilidad define:

  • Un conjunto de servicios, aplicaciones o flujos de trabajo
  • Un periodo de tiempo durante el cual se espera que estén disponibles, normalmente 24 horas al día y 7 días a la semana
  • Una definición de qué condiciones definen un incumplimiento del SLA, como fallos repetidos, peticiones lentas, errores o experiencias degradadas de los usuarios.

Los acuerdos de nivel de servicio son un requisito común para los sistemas empresariales, pero los sistemas bien diseñados ponen el énfasis en definir, monitorizar y responder adecuadamente a los acuerdos de nivel de servicio, en lugar de una simple definición de tener como objetivo un número más alto. La definición de estos detalles es un proceso complejo que pone de relieve la profundidad de la planificación y el diseño que deben incluirse en las discusiones sobre la fiabilidad.

Cuando los sistemas se diseñan para alcanzar un determinado nivel de fiabilidad, pueden utilizar una combinación de varias técnicas para lograrlo, entre ellas:

  1. Alta disponibilidad: la práctica de tener componentes de software redundantes, a menudo geográficamente redundantes, que proporcionan los mismos servicios en caso de una interrupción.
  2. Copias de seguridad: la práctica de realizar copias de seguridad periódicas del estado de un sistema, de los detalles, datos o servicios importantes, para su recuperación en el futuro.
  3. Recuperación ante desastres: un proceso de planificación para escenarios poco comunes pero perjudiciales, y la identificación de métodos para regenerar rápidamente un sitio o sistema si se produce un escenario.
  4. Monitorización: uso de una monitorización eficaz para identificar posibles problemas con antelación, medir el tiempo de inactividad que experimenta un sistema e informar de esos resultados para los resúmenes posteriores al evento. Está estrechamente relacionado con el pilar de la observabilidad

Cada una de estas técnicas se explica con más detalle en esta sección, con una vista general de las opciones, recomendaciones y planteamientos.

En este tema
Top