Zuverlässigkeit in Azure Elastic SAN

Azure Elastic SAN ist ein cloudeigener Speicherbereichsnetzwerkdienst (SAN), der eine skalierbare, kostengünstige, leistungsstarke und umfassende Speicherlösung für eine Reihe von Computeoptionen bietet. Mit Elastic SAN können Sie Volumes erstellen und verwalten, bei denen es sich um virtuelle Datenträger handelt, die Sie über das iSCSI-Protokoll mit Ihren virtuellen Computern, Containern oder anderen Azure-Diensten verbinden können.

Wenn Sie Azure verwenden, ist Zuverlässigkeit eine gemeinsame Verantwortung. Microsoft bietet eine Reihe von Funktionen zur Unterstützung von Resilienz und Wiederherstellung. Sie sind dafür verantwortlich, zu verstehen, wie diese Funktionen in allen von Ihnen verwendeten Diensten funktionieren, und die Funktionen auswählen, die Sie benötigen, um Ihre Geschäftsziele und Uptime-Ziele zu erfüllen.

In diesem Artikel wird beschrieben, wie Sie Azure Elastic SAN widerstandsfähig für eine Vielzahl potenzieller Ausfälle und Probleme machen, einschließlich vorübergehender Fehler, Verfügbarkeitszonenfehler und regionsweite Fehler. Außerdem werden Sicherungs- und Wiederherstellungsoptionen beschrieben und wichtige Informationen zum Azure Elastic SAN ServiceLevel Agreement (SLA) hervorgehoben.

Empfehlungen für die Produktionsimplementierung für Zuverlässigkeit

Für Produktionsarbeitslasten empfehlen wir Folgendes:

  • Zonenredundanter Speicher verwenden (ZRS): ZRS verteilt Kopien Ihrer Daten in drei Verfügbarkeitszonen.
  • Konfigurieren Sie Ihren Netzwerkzugriff, um den manuellen Eingriff während Zonenfehlern zu reduzieren: Private Endpunkte aktivieren automatisches Zonenfailover ohne manuelles Eingreifen, während Dienstendpunkte möglicherweise manuelle Eingriffe erfordern.
  • Für Workloads, die eine regionsübergreifende Notfallwiederherstellung erfordern: Erstellen Sie regelmäßig Momentaufnahmen Ihrer Volumes und exportieren Sie diese in verwaltete Disk-Snapshots zum Schutz Ihrer Daten. Kopieren Sie die Momentaufnahmen in eine sekundäre Region, die geografisch von Ihrer primären Region entfernt ist.

Übersicht über die Zuverlässigkeitsarchitektur

Elastic SAN verfügt über eine dreistufige Ressourcenhierarchie:

  • Elastic SAN: Die Ressource auf oberster Ebene, in der Sie Redundanz konfigurieren, Speicherkapazität zuordnen und Leistungsbeschränkungen festlegen. Die Anzahl der Basiseinheiten, die Ihrem Elastic SAN zugeordnet sind, bestimmt den gesamten IOPS und Durchsatz, der über das gesamte SAN verfügbar ist.
  • Volumegruppen: Verwaltungskonstrukte, die zum Verwalten von Volumes im großen Maßstab verwendet werden. Netzwerkzugriffseinstellungen, z. B. private Endpunkte oder Dienstendpunkte, werden auf Volumegruppenebene konfiguriert und von allen Volumes in der Gruppe geerbt.
  • Volumes: Einzelne Speichervolumes, die von der Gesamtkapazität des SAN partitioniert wurden. Volumes sind über das iSCSI-Protokoll mit Computeressourcen verbunden.

Weitere Informationen zu den ressourcen, die Sie bereitstellen, finden Sie unter Elastic SAN resources.

Intern speichert Elastic SAN Ihre Daten in Speicherclustern. Wenn Sie Ihr Elastic SAN so konfigurieren, dass lokal redundanter Speicher (LRS) verwendet wird, werden Ihre Daten dreimal innerhalb eines einzelnen Speicherclusters in einem Rechenzentrum repliziert. Sie können zonenredundanten Speicher (ZRS) konfigurieren, um Kopien der Daten in drei Verfügbarkeitszonen zu speichern. Weitere Informationen finden Sie unter Resilienz bei Ausfällen von Verfügbarkeitszonen.

Resilienz für vorübergehende Fehler

Vorübergehende Fehler sind kurze, zeitweilige Fehler in Komponenten. Sie treten häufig in einer verteilten Umgebung wie der Cloud auf und sind ein normaler Bestandteil von Vorgängen. Vorübergehende Fehler korrigieren sich nach kurzer Zeit. Es ist wichtig, dass Ihre Anwendungen vorübergehende Fehler behandeln können, in der Regel durch Wiederholen betroffener Anforderungen.

Alle in der Cloud gehosteten Anwendungen sollten die Anleitung zur vorübergehenden Fehlerbehandlung von Azure befolgen, wenn sie mit cloudgehosteten APIs, Datenbanken und anderen Komponenten kommunizieren. Weitere Informationen finden Sie unter Empfehlungen zur Behandlung vorübergehender Fehler.

Wenn Die iSCSI-Verbindung mit einem Elastic SAN-Volume unterbrochen wird, versucht der iSCSI-Initiator auf dem Client automatisch, eine erneute Verbindung herzustellen. Während der erneuten Verbindung kann es zu einer kurzen Pause bei E/A-Vorgängen kommen. Konfigurieren Sie Ihren iSCSI-Initiator mit den entsprechenden Wiederholungs- und Timeouteinstellungen, um vorübergehende Unterbrechungen zu verarbeiten. Ausführliche Empfehlungen für iSCSI- und MPIO-Einstellungen finden Sie unter Optimieren der Leistung Ihres Elastic SAN.

Ausfallsicherheit bei Ausfällen von Verfügbarkeitszonen

Verfügbarkeitszonen sind physisch getrennte Gruppen von Rechenzentren innerhalb einer Azure-Region. Wenn eine Zone ausfällt, erfolgt ein Failover der Dienste zu einer der verbleibenden Zonen.

Azure Elastic SAN können so konfiguriert werden, dass zonenredundanter Speicher (ZRS) verwendet wird, was bedeutet, dass Ihre Daten synchron in drei Verfügbarkeitszonen in der Region repliziert werden. Zonenredundanz hilft Ihnen dabei, Resilienz und Zuverlässigkeit für Ihre Produktionsworkloads zu erreichen.

Diagramm, das ein zonenredundantes Elastic SAN mit einer Volumegruppe zeigt, die ein einzelnes Volume enthält. Die Daten im Volume werden in drei Verfügbarkeitszonen repliziert.

Ihr Konnektivitätsansatz wirkt sich auf die Fähigkeit Ihrer Workload aus, während eines Zonenfehlers transparent zu übergehen. Es wird empfohlen, private Endpunkte zum Herstellen einer Verbindung mit Ihren Volumes zu verwenden. Private Endpunkte unterstützen automatisches Failover. Wenn Sie Dienstendpunkte verwenden, sind beim Failover möglicherweise manuelle Eingriffe erforderlich. Weitere Informationen zu den Konnektivitätsansätzen finden Sie unter "Informationen zu Netzwerkkonfigurationen für Elastic SAN".

Wenn Sie lokal redundanten Speicher (LRS) verwenden, bleibt Ihr Elastic SAN ungeschützt gegen Ausfälle von Verfügbarkeitszonen. LRS macht das Elastic SAN nicht zonenübergreifend , indem Daten in einer einzelnen Verfügbarkeitszone gespeichert werden, anstatt sie über Zonen mit ZRS zu verteilen.

Anforderungen

Regionsunterstützung: Zonenredundante elastic SAN-Ressourcen können in einer Teilmenge von Regionen bereitgestellt werden. Eine Liste der Regionen finden Sie unter Skalierungsziele für Elastic SAN.

Cost

Wenn Sie ein Elastic SAN mit ZRS erstellen, sind die Kosten höher als bei LRS. Weitere Informationen zu Preisen finden Sie unter Azure Elastic SAN Pricing.

Konfigurieren der Unterstützung von Verfügbarkeitszonen

  • Erstellen Sie ein neues elastic SAN mit ZRS: Wenn Sie ein Elastic SAN erstellen und ZRS als Redundanzoption auswählen, ist Ihr Elastic SAN automatisch zonenredundant. Sie können die Redundanzoption nicht ändern, nachdem das Elastic SAN erstellt wurde. Weitere Informationen zum Erstellen einer neuen Elastic SAN-Ressource finden Sie unter Deploy an Elastic SAN.

  • Aktivieren sie Zonenredundanz für ein vorhandenes LRS Elastic SAN: Sie können ein LRS Elastic SAN nicht an Ort und Stelle in ZRS konvertieren. Um ihre Elastic SAN-Volumes zu migrieren, exportieren Sie diese in verwaltete Datenträgermomentaufnahmen, stellen Sie ein neues Elastic SAN auf ZRS bereit und erstellen Sie dann Volumes auf dem neuen Elastic SAN mithilfe dieser Datenträgermomentaufnahmen. Weitere Informationen finden Sie unter Snapshot Azure Elastic SAN Volumes.

Verhalten, wenn alle Zonen fehlerfrei sind

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Sie ein elastic SAN für Zonenredundanz konfigurieren, und alle Zonen sind betriebsbereit.

  • Zonenübergreifender Vorgang: Wenn Sie eine Verbindung mit einem Elastic SAN-Volume herstellen, leitet Ihre iSCSI-Verbindung in eine der Verfügbarkeitszonen zu einem Cluster weiter. Die Plattform leitet automatisch den Verkehr zwischen den Zonen weiter.

  • Zonenübergreifende Datenreplikation: Wenn ein Client Daten in ein elastic SAN-Volume schreibt, werden diese Daten synchron in Cluster innerhalb von drei Verfügbarkeitszonen geschrieben, bevor der Schreibvorgang bestätigt wird. Die synchrone Replikation stellt eine hohe Datenkonsistenz sicher und stellt sicher, dass während eines Zonenfehlers kein Datenverlust auftritt.

    Das Bereitstellen von Elastic SAN mit ZRS bietet mehr Zuverlässigkeit als eine Elastic SAN-Instanz mit LRS, erhöht jedoch die Schreibwartezeit. Führen Sie Vergleichstests für Elastic SAN durch, um die Workload Ihrer Anwendung zu simulieren und die Wartezeit zwischen LRS und ZRS zu vergleichen und so zu ermitteln, ob dies eine Auswirkung auf Ihre Workload hat.

Verhalten bei einem Zoneausfall

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Sie ein elastic SAN für Zonenredundanz konfigurieren, und es gibt einen Ausfall in einer der Zonen.

  • Erkennung und Reaktion: Die Elastic SAN-Plattform erkennt Fehler in einer Verfügbarkeitszone. Sie müssen nichts tun, um ein Zonenfailover für ZRS Elastic SANs zu initiieren.

  • Notification: Microsoft benachrichtigt Sie nicht automatisch, wenn eine Zone abfällt. Sie können jedoch Azure Service Health verwenden, um den Gesamtstatus des Diensts zu verstehen, einschließlich aller Zonenfehler, und Sie können Service Health Alerts einrichten, um Sie über Probleme zu informieren.

  • Aktive Anforderungen: Wenn eine Verfügbarkeitszone nicht verfügbar ist, kann der Dienst laufende E/A-Vorgänge beenden, die eine Verbindung mit Replikaten in der betroffenen Zone herstellen, und Sie müssen diese Vorgänge wiederholen. Wenn Sie private Endpunkte verwenden, schlägt der Dienst automatisch fehl. Wenn Sie Dienstendpunkte verwenden, müssen Sie den iSCSI-Initiator möglicherweise neu starten, um zu einer fehlerfreien Zone zu wechseln.

  • Erwarteter Datenverlust: Elastic SAN verhindert Datenverlust während eines Zonenausfalls, indem Daten synchron in drei Verfügbarkeitszonen repliziert werden.

  • Erwartete Ausfallzeiten: Wenn Sie private Endpunkte verwenden, erfolgt das Zonenfailover automatisch. Nach einem Failover kann es für einige Minuten zu einer Beeinträchtigung der Verfügbarkeit und Leistung kommen, während sich das SAN selbst neu ausbalanciert.

    Wenn Sie Dienstendpunkte verwenden, wechselt Elastic SAN nicht automatisch zu einer fehlerfreien Zone. Möglicherweise müssen Sie den iSCSI-Initiator neu starten, um ein Failover auf eine andere fehlerfreie Zone zu initiieren.

  • Datenverkehrsumleitung: Wenn eine Zone nicht verfügbar ist, erkennt die Elastic SAN-Plattform den Verlust der Zone und leitet den Datenverkehr an die verbleibenden gesunden Zonen weiter.

    Um ein automatisches Zonenfailover ohne manuellen Eingriff sicherzustellen, verwenden Sie private Endpunkte, um eine Verbindung mit Ihrem Elastic SAN herzustellen. Wenn Sie Dienstendpunkte anstelle privater Endpunkte verwenden, müssen Sie den iSCSI-Initiator möglicherweise manuell neu starten, um ein Failover in eine fehlerfreie Zone zu initiieren.

Zonenwiederherstellung

Wenn die Verfügbarkeitszone wiederhergestellt wird, stellt die Elastic SAN-Plattform automatisch normale Vorgänge wieder her und setzt die Replikation über drei Zonen hinweg fort. Sie müssen keine Maßnahmen ergreifen.

Test auf Zonenfehler

Die Azure Elastic SAN-Plattform verwaltet Datenverkehrsrouting, Failover und Zonenwiederherstellung für zonenredundante Ressourcen. Da dieses Feature vollständig verwaltet wird, müssen Sie keine Fehlerprozesse der Verfügbarkeitszone überprüfen.

Widerstandsfähigkeit bei regionalen Ausfällen

Azure Elastic SAN ist ein Einzelregionendienst. Wenn die Region nicht verfügbar ist, ist Ihre Elastic SAN-Ressource ebenfalls nicht verfügbar. Es gibt keine integrierte regionsübergreifende Replikation oder Failover für Elastic SAN. Sie sind für die Architektur Ihrer eigenen Multiregion-Notfallwiederherstellungslösung verantwortlich, wenn Ihre Workload Ausfallsicherheit auf Regionsebene erfordert.

Benutzerdefinierte Lösungen mit mehreren Regionen für Resilienz

Sie sind für die Implementierung der Notfallwiederherstellung für mehrere Regionen für Ihre elastic SAN-Daten verantwortlich. Der empfohlene Ansatz besteht darin, Volume-Snapshots zu verwenden:

  1. Erstellen Sie Momentaufnahmen regelmäßig. Verwenden Sie Volumeschnappschüsse, um zeitpunktbezogene Kopien Ihrer Elastic SAN-Volumes zu erfassen.

    Ihr Wiederherstellungspunktziel (RPO) hängt davon ab, wie häufig Momentaufnahmen erstellt und in die sekundäre Region kopiert werden. Je häufiger Sie Momentaufnahmen erstellen und diese kopieren, desto niedriger sind die potenziellen Datenverluste während eines Notfalls.

  2. Exportieren Sie Momentaufnahmen in verwaltete Datenträgermomentaufnahmen.Exportieren Sie Ihre Volumemomentaufnahmen in verwaltete Datenträgermomentaufnahmen, die in andere Regionen kopiert werden können.

  3. Kopieren sie Momentaufnahmen in einen sekundären Bereich.Kopieren Sie die inkrementelle Momentaufnahme in eine neue Region , die geografisch von Ihrer primären Region entfernt ist. Dadurch wird das Risiko reduziert, dass mehrere Regionen durch eine einzige Katastrophe betroffen sind.

  4. Aus Momentaufnahmen wiederherstellen. Erstellen Sie in einem Notfallwiederherstellungsszenario neue Volumes auf dem sekundären Elastic SAN aus den kopierten verwalteten Datenträger-Snapshots.

Ihr Wiederherstellungszeitziel (Recovery Time Objective, RTO) hängt von der Größe Ihrer Daten, der Zeit ab, die zum Kopieren von Momentaufnahmen in verschiedenen Regionen benötigt wird, und der Zeit, die zum Bereitstellen und Konfigurieren eines neuen Elastic SAN in der sekundären Region erforderlich ist. Um die Wiederherstellungszeit zu reduzieren, sollten Sie ein sekundäres elastic SAN in Ihrer Wiederherstellungsregion bereitstellen, bevor ein Notfall auftritt. Dies hilft auch, Kapazitätsbeschränkungen während eines Ausfalls zu vermeiden.

Sichern und Wiederherstellen

Für die meisten Lösungen sollten Sie sich nicht ausschließlich auf Sicherungen verlassen. Verwenden Sie stattdessen die in diesem Handbuch beschriebenen anderen Funktionen, um Ihre Resilienzanforderungen zu unterstützen. Sicherungen schützen jedoch vor einigen Risiken, die andere Ansätze nicht vermeiden. Weitere Informationen finden Sie unter Was sind Redundanz, Replikation und Sicherung?.

Elastic SAN unterstützt zwei Arten von Sicherungen:

  • Azure Elastic SAN backup: Diese Funktion von Azure Backup bietet eine vollständig verwaltete Lösung zum Planen von Sicherungen, Festlegen von Ablaufzeitachsen für Wiederherstellungspunkte und Wiederherstellungsdaten auf ein neues Volume. Es schützt vor Datenverlust vor versehentlichen Löschungen, Ransomware und Anwendungsupdates. Weitere Informationen finden Sie unter Azure Elastic SAN Backup (Vorschau).

    Important

    Da diese Lösung von den ergänzenden Nutzungsbedingungen für Azure Previews von Microsoft abgedeckt ist, verwenden Sie sie zum Testen und nicht für die Produktionsverwendung.

  • Snapshots: Alternativ können Sie Momentaufnahmen basierend auf Ihren Datenschutzanforderungen erstellen und verwalten.

    Azure Elastic SAN unterstützt Volumesnapshots für den Datenschutz. Momentaufnahmen sind inkrementelle, zeitpunktbezogene Kopien Ihrer Volumes, die Speicherplatz aus der Gesamtkapazität Ihres Elastic SANs verbrauchen. Um Ihre Daten zu schützen, erstellen Sie regelmäßig Momentaufnahmen. Die Häufigkeit hängt davon ab, wie viele Daten Sie verlieren können (Ihr RPO). Sie können Momentaufnahmen manuell erstellen oder eine eigene Automatisierung erstellen, um sie nach einem Zeitplan zu erstellen.

    Momentaufnahmen werden innerhalb desselben Elastic SANs wie bei Ihren Volumes gespeichert und verwenden dieselbe Redundanzeinstellung. Um einen regionsweiten Ausfall zu verhindern, sollten Sie Ihre Momentaufnahmen in verwaltete Datenträgermomentaufnahmen exportieren und in eine andere Region kopieren. Weitere Informationen finden Sie unter Exportieren der Volumemomentaufnahme und Kopieren einer inkrementellen Momentaufnahme in einen neuen Bereich.

    Sie können ein neues Elastic SAN-Volume aus einer Momentaufnahme oder aus einer Momentaufnahme eines verwalteten Datenträgers erstellen. Weitere Informationen finden Sie unter Erstellen eines Volumes aus einer Momentaufnahme.

Resilienz gegenüber Wartungsarbeiten an Diensten

Microsoft wendet regelmäßig Dienstupdates an und führt andere Wartungen durch. Die Azure Plattform übernimmt diese Aktivitäten automatisch, um sicherzustellen, dass die Wartung nahtlos und transparent für Sie ist. Bei Wartungsereignissen wird keine Ausfallzeit erwartet, es sei denn, Sie wurden über die geplante Wartung in Azure Service Health informiert.

Service-Level-Vereinbarung

Der Service level agreement (SLA) für Azure-Dienste beschreibt die erwartete Verfügbarkeit jedes Diensts und die Bedingungen, die Ihre Lösung erfüllen muss, um diese Verfügbarkeitserwartungen zu erreichen. Weitere Informationen finden Sie unter Dienstleistungsvereinbarungen für Onlinedienste.