Scenari di failover del cluster nel dispositivo GPU Azure Stack Edge Pro

Questo articolo identifica gli scenari di failover comuni, il modo in cui il dispositivo Azure Stack Edge risponde e l'impatto complessivo sui carichi di lavoro distribuiti nel cluster in caso di failover.

Informazioni sul failover

Azure Stack Edge può essere configurato come un singolo dispositivo autonomo o un cluster a due nodi. In un cluster a due nodi, i nodi in cluster offrono disponibilità elevata per applicazioni e servizi in esecuzione nel cluster.

Se uno dei nodi in cluster ha esito negativo, l'altro nodo inizia a fornire il servizio. Questo processo è noto come failover. Il failover può verificarsi anche se i componenti hardware associati a uno o entrambi i nodi del tuo dispositivo, come le unità disco, le unità di alimentazione (PSU) o la rete, si guastano o quando si aggiornano i nodi del dispositivo.

Scenari di failover

Il failover può verificarsi a causa di un errore del componente hardware, di un errore del nodo o durante l'aggiornamento del cluster Azure Stack Edge.

Errori hardware

Queste tabelle riepilogano gli scenari di errore per un componente hardware fisico associato al cluster del dispositivo, ad esempio una o più unità disco, alimentatore o rete.

Errori di unità disco

Nodo A Nodo B Il cluster sopravvive Failover dettagli
1 unità di disco fallisce Nessun errore No Il cluster è danneggiato fino a quando il disco non viene sostituito.
2 o più unità disco hanno esito negativo Nessun errore No Il cluster è danneggiato fino a quando il disco non viene sostituito.
1 o più unità disco hanno esito negativo 1 o più unità disco hanno esito negativo No Il cluster diventa offline.

Guasti dell'unità di alimentazione

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Guasto di 1 unità di alimentazione Nessun errore No Un altro guasto dell'alimentatore nel nodo A comporterà il failover nel nodo B.
Guasto di 1 unità di alimentazione Guasto di 1 unità di alimentazione No Un altro guasto di alimentazione in uno dei due nodi comporterà il failover.
2 PSU hanno esito negativo Nessun errore Le VM sul nodo A effettuano un failover verso il nodo B.
Guasto di 2 unità di alimentazione (TBC) Guasto di 1 unità di alimentazione Le macchine virtuali su nodo A eseguono il failover sul nodo B.
2 PSU hanno esito negativo 2 PSU hanno esito negativo No Il cluster diventa offline.

Errori di rete

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Porte 1, 2, 5 o 6 non funzionano. Nessun errore No La porta guasta non è disponibile. Le app in ascolto su questa porta sono interessate
1 o entrambe le porte 3 e porta 4 hanno esito negativo Nessun errore Le macchine virtuali sul nodo A vengono trasferite al nodo B.

Errori e aggiornamenti dei nodi

Errore del nodo

Questa tabella riepiloga gli scenari di errore quando un intero nodo ha fallito sul tuo cluster.

Nodo A Nodo B Il cluster sopravvive Failover dettagli
L'intero nodo fallisce Nessun errore Le macchine virtuali effettuano il failover dal nodo A al nodo B
L'intero nodo fallisce L'intero nodo fallisce No - Il cluster diventa offline
Riavvio Nessun errore Le macchine virtuali dal nodo A eseguono il failover al nodo B
Riavvio Riavvio No - Il cluster è offline fino al completamento del riavvio
Il componente principale ha esito negativo. Ad esempio, scheda madre, DIMM e disco del sistema operativo. Nessun errore Le macchine virtuali eseguono il failover dal nodo A al nodo B.
Il componente principale fallisce. Ad esempio, scheda madre, DIMM e disco del sistema operativo. Il componente cardine fallisce. Ad esempio, scheda madre, DIMM e disco del sistema operativo. No - Il cluster diventa offline

Aggiornamento del nodo

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Aggiornamento del nodo Nessun errore Le macchine virtuali migrano dal nodo A al nodo B
Aggiornamento del nodo 2 PSU hanno esito negativo No - Il cluster diventa offline
Aggiornamento del nodo L'intero nodo si guasta o va offline No - Il cluster diventa offline
Aggiornamento del nodo Riavvio No - Il cluster diventa offline
Aggiornamento del nodo Il componente principale presenta guasti quali scheda madre, DIMM e disco del sistema operativo. No - Il cluster diventa offline

Passaggi successivi