Pilier de la fiabilité

Tous les systèmes d’entreprise sont censés être fiables, mais le sens de ce terme peut varier considérablement en fonction du cas d’utilisation, de la criticité de l’entreprise et des intégrations qui définissent un système. Bien que d’autres notions entrent en jeu en matière de fiabilité (telles que la continuité des activités, la gestion des défaillances, la résilience, la haute disponibilité, la stabilité, le temps de fonctionnement, la tolérance aux pannes ou la redondance), ce pilier s’appelle fiabilité pour désigner le large éventail de définitions dont disposent les organisations. La recommandation la plus importante de cette section est de considérer que la définition d’un système fiable est très subjective. Chaque organisation est différente. Les processus, les données et les attentes diffèrent et le processus mis en place pour définir et atteindre les objectifs de fiabilité est spécifique à chaque organisation.

Les systèmes à l’architecture bien pensée sont conçus pour garantir les capacités, les fonctionnalités et les processus nécessaires aux activités de l’entreprise. Cela ne signifie pas que chaque système doit être hautement disponible et hautement redondant, car pour certains systèmes, cela représenterait un niveau de complexité ou de coût inapproprié qui aurait un impact global négatif sur le système.

La fiabilité est souvent mesurée grâce au concept de contrat de niveau de service (SLA). Un SLA représente un engagement envers les utilisateurs professionnels et les clients d’un système à maintenir, en permanence, un certain niveau de service. Un SLA est généralement défini par des objectifs de performance spécifiques (« toutes les requêtes doivent générer une réponse en moins de trois secondes », par exemple), un temps de fonctionnement et un niveau de disponibilité. Un SLA de disponibilité définit :

  • Un ensemble de services, d’applications ou de processus
  • Une période pendant laquelle ils sont censés être disponibles, généralement 24 heures sur 24 et 7 jours sur 7
  • Une définition des conditions de violation du SLA (échecs à répétition, requêtes trop lentes, erreurs ou expériences utilisateur dégradées, par exemple)

Les SLA font partie des exigences de base pour les systèmes d’entreprise, mais les systèmes à l’architecture bien pensée mettent avant tout l’accent sur une bonne définition, une surveillance optimale et une réponse correcte aux SLA plutôt que de fixer un objectif trop élevé. Les détails d’un SLA sont le fruit d’un processus complexe qui met en évidence l’intense travail de concertation, de planification et de conception requis pour garantir la fiabilité du système.

Lorsque les systèmes sont conçus pour garantir un certain niveau de fiabilité, ils peuvent utiliser une combinaison de plusieurs techniques pour y parvenir, notamment :

  1. Haute disponibilité : pratique consistant à disposer de composants logiciels redondants, souvent géographiquement redondants, qui fournissent les mêmes services en cas de panne.
  2. Sauvegardes : pratique consistant à sauvegarder régulièrement l’état d’un système, les détails importants, les données ou les services, en vue d’une récupération ultérieure.
  3. Récupération d’urgence : processus de planification pour faire face à des scénarios inhabituels mais perturbateurs et identifier des méthodes pour reconstruire rapidement un site ou un système en cas de sinistre.
  4. Surveillance : mode de supervision efficace pour identifier rapidement les problèmes potentiels, évaluer la durée d’indisponibilité d’un système et produire des synthèses post-événement à partir de ces résultats. Cette technique est étroitement liée au pilier de l’observabilité.

Chacune de ces techniques est abordée plus en détail dans la présente section qui offre un aperçu des options, des recommandations et des approches dans ce domaine.

Dans cette rubrique
Top