Grundpfeiler “Zuverlässigkeit”

Von allen Unternehmenssystemen wird erwartet, dass sie zuverlässig sind, aber die Definition dieses Begriffs kann je nach Anwendungsfall, Geschäftskritikalität und Integrationen, die ein System definieren, erheblich variieren. Obwohl sich Zuverlässigkeit auf andere Begriffe wie Geschäftskontinuität, Störungsmanagement, Resilienz, hohe Verfügbarkeit, Stabilität, Betriebszeit, Fehlertoleranz oder Redundanz bezieht, trägt dieser Grundpfeiler den Titel Zuverlässigkeit, um das breite Spektrum an Definitionen zu erfassen, die Organisationen haben.r Die wichtigste Empfehlung in diesem Abschnitt besteht darin, die Definition eines zuverlässigen Systems als höchst subjektiv zu betrachten. Jede Organisation ist anders, hat unterschiedliche Arbeitsabläufe, Daten und Erwartungen, und der Prozess des Definierens und Erreichens von Zuverlässigkeit ist für jede Organisation einzigartig.

Gut strukturierte Systeme sind so konzipiert, dass sie zuverlässig die Fähigkeiten, Funktionen und Workflows bereitstellen, die die Geschäftsanforderungen erfordern. Dies bedeutet nicht, dass jedes System hochverfügbar und hochgradig redundant sein muss, um eine gute Architektur zu haben, da dies bei einigen Systemen ein unangemessenes Ausmaß an Komplexität oder Kosten bedeuten würde, das sich insgesamt negativ auf das System auswirkt.

Zuverlässigkeit wird oft anhand des Konzepts eines Service-Level-Agreements (SLA, Vereinbarung zum Servicelevel) gemessen. Ein SLA bezieht sich auf die Verpflichtung gegenüber Geschäftskunden und Clients eines Systems, jederzeit ein gewisses Serviceniveau (Servicelevel) zu gewährleisten. Ein SLA wird in der Regel durch bestimmte Leistungsziele definiert, z. B. “Alle Anfragen müssen in weniger als drei Sekunden beantwortet werden” oder eine bestimmte Betriebszeit und “Verfügbarkeit”. In einem SLA zur Verfügbarkeit wird Folgendes definiert:

  • Eine Reihe bestimmter Services, Anwendungen oder Workflows
  • Ein Zeitraum, in dem von ihnen erwartet wird, dass sie verfügbar sind, in der Regel 24 Stunden am Tag und 7 Tage die Woche, also rund um die Uhr
  • Eine Definition dessen, welche Bedingungen eine Verletzung des SLA definieren, z. B. wiederholte Störungen, langsame Anforderungen, Fehler oder verschlechterte Benutzererfahrungen

SLAs sind eine häufige Anforderung für Unternehmenssysteme, aber gut strukturierte Systeme konzentrieren sich auf die ordnungsgemäße Definition, Überwachung und Reaktion auf SLAs und nicht auf die einfache Definition einer höheren Zahl als Ziel. Die Definition dieser Details ist ein komplexer Prozess, der die Tiefe der Planung und des Entwurfs hervorhebt, die in Diskussionen über die Zuverlässigkeit einfließen müssen.

Wenn Systeme für ein bestimmtes Maß an Zuverlässigkeit ausgelegt sind, dann kann eine Kombination mehrerer Techniken verwendet werden, um dies zu erreichen, wie zum Beispiel:

  1. Hohe Verfügbarkeit: Der Betrieb redundanter Softwarekomponenten, die oft geographisch redundant sind und im Falle eines Ausfalls dieselben Services bereitstellen
  2. Sicherungen: Die regelmäßige Anfertigung von Sicherungskopien des Zustandes eines Systems mit allen wichtigen Details, Daten oder Services für die Wiederherstellung in der Zukunft
  3. Notfallwiederherstellung: Ein Prozess der Planung für ungewöhnliche, aber disruptive Szenarien und der Identifizierung von Methoden zur schnellen Neuerstellung einer Site oder eines Systems, wenn ein Szenario eintritt
  4. Überwachung: Verwendung einer effektiven Überwachung, um potenzielle Probleme frühzeitig zu erkennen, die Ausfallzeit eines Systems zu messen und diese Ergebnisse für Zusammenfassungen nach dem Ereignis zu melden. Dies steht in engem Zusammenhang mit der Grundpfeiler “Beobachtbarkeit”.

Jede dieser Techniken wird in diesem Abschnitt ausführlicher behandelt, mit einem Überblick über Optionen, Empfehlungen und Ansätze.

Top