Die Bedeutung der Incident Response
- 3 Minuten
Basierend auf den Prinzipien und Praktiken der Überwachung, die in einem anderen Modul aus diesem Lernpfad diskutiert werden, erfahren Sie jetzt, was Sie tun können, wenn Ihre Überwachung ein Problem zeigt. Wenn Sie eine Warnung mit Aktionen erhalten, die Sie darüber informiert, dass Ihre Systeme nicht erwartungsgemäß funktionieren, ist dies der Auslöser für eine Antwort, um das Problem zu beheben.
Was ist ein Vorfall?
Bei der Reaktion auf Vorfälle handelt es sich um die Aktionen, die Sie ergreifen, wenn ein Vorfall auftritt, aber was ist genau ein Vorfall? Die Antwort kann subjektiv sein; selbst alle Ingenieure stimmen nicht überein, was ein Vorfall ist. Wenn Sie die Frage in verschiedenen Branchen und Organisationen stellen, erhalten Sie viele verschiedene Antworten.
Einige bezeichnen alle Unterbrechungen als Vorfälle, unabhängig davon, ob Kunden betroffen sind. Im Rahmen dieses Moduls können wir zustimmen, dass ein Vorfall als Dienstunterbrechung definiert ist: ein Vorkommen oder eine Bedingung, die sich auf die Fähigkeit des Benutzers auswirkt, die Dienste zu verwenden, auf die sie vertrauen. Beispiele hierfür sind, wenn Systeme nicht funktionieren oder auf eine Weise fehlfunktionieren, die sich auf Kunden auswirkt.
Was ist Incident Response?
Das Verhindern aller Probleme ist ein lobenswertes, aber unmögliches Ziel. Die Dinge gehen schief, daher benötigen wir einen Plan, um die Auswirkungen auf unsere Endbenutzer zu begrenzen und Vorgänge so schnell wie möglich normal zu machen.
Der Schlüssel besteht darin, mit Dringlichkeit zu antworten, anstatt nur zu reagieren. Eine Reaktion tendiert dazu, impulsiver zu sein und im gegenwärtigen Moment zu basieren, ohne langfristige Auswirkungen zu berücksichtigen. Eine Antwort ist gut durchdacht, organisiert und informationsbasiert.
Ihr Vorfallreaktionsansatz bestimmt Ihre Effektivität bei:
- Verstehen, was vor sich geht (Diagnose des Problems).
- Triaging (Ermittlung der Dringlichkeit) und Priorisieren des Problems.
- Einbeziehen der richtigen Ressourcen zur Behebung der Probleme.
- Kommunikation mit Projektbeteiligten über das Problem.
Nachdem Sie das Problem behoben haben, können Sie aus dem Vorfall durch einen Überprüfungsprozess lernen. Das ist ein wichtiges Thema, das ein ganz separates Modul hat, das diskutiert werden sollte.
Messen der Leistung der Reaktion auf Vorfälle
Möglicherweise sind Sie mit dem Akronym TTR vertraut, der unterschiedlich als "Zeit für die Wiederherstellung", "Zeit für die Wiederherstellung" oder "Zeit für die Wiederherstellung" definiert ist. Alle diese Varianten beziehen sich auf die gleiche Idee: Wie lange es dauert, einen Dienst in einen Zustand zurückzubringen, in dem es wieder die Erwartungen der Kunden erfüllt.
Für dieses Konzept verwenden unterschiedliche Frameworks unterschiedliche Namen. Die aktuelle Anleitung von DORA bezieht sich auf fehlgeschlagene Bereitstellungswiederherstellungszeit, eine der fünf Leistungsmetriken der Softwarebereitstellung. Es misst, wie schnell sich ein Team von einer fehlgeschlagenen Bereitstellung erholen kann, das ein Produktionsproblem verursacht, und macht es zu einem der stärksten Indikatoren für die Fähigkeit zur Reaktion auf Vorfälle.
Diese Metrik ist eine Möglichkeit, die Leistung von Teams bei der Reaktion auf Vorfälle zu messen. Je schneller Sie den Dienst wiederherstellen, desto weniger wirkt sich der Ausfall oder beeinträchtigte Dienst auf Ihre Benutzer aus.
Es ist wichtig zu wissen, wie gut Ihre Organisation die Reaktion auf Vorfälle behandelt. Die Forschung von DORA zeigt weiterhin eine starke Beziehung zwischen Wiederherstellungsleistung und gesamter Softwarebereitstellungsleistung. Anstatt Benchmarkbänder als feste Ziele zu behandeln, verwenden Sie die Wiederherstellungszeit, um Dienste im Laufe der Zeit zu vergleichen, Engpässe in Ihrem Antwortprozess zu identifizieren und zu messen, ob Ihre Verbesserungen funktionieren.
Teams mit starken Reaktionsmethoden auf Vorfälle erholen sich schneller als ihre leistungsschwachen Kollegen und verbinden diese Geschwindigkeit mit einer insgesamt stärkeren Leistungsfähigkeit. Eine gute Überwachung, klare Eigentümerschaft, praxisübliche Reaktionspläne und Automatisierung tragen dazu bei, die Wiederherstellungszeit zu reduzieren.
Warum können Teams mit effektiven Praktiken zur Vorfallreaktion so viel schneller als die anderen wiederherstellen? Es liegt zumindest teilweise daran, dass sie verstehen, wie wichtig es ist, bereits einen guten grundlegenden Reaktionsplan zu haben, wenn die Dinge zwangsläufig schief gehen.
Während Sie dieses Modul durchgehen, erfahren Sie mehr über die Merkmale und den Lebenszyklus eines Vorfalls und erfahren, wie Sie dieses Wissen verwenden, um Ihren eigenen Basisplan zu erstellen.