Condividi tramite


Scenari di failover del cluster nel dispositivo GPU Azure Stack Edge Pro

Questo articolo identifica gli scenari di failover comuni, il modo in cui il dispositivo Azure Stack Edge risponde e l'impatto complessivo sui carichi di lavoro distribuiti nel cluster in caso di failover.

Informazioni sul failover

Azure Stack Edge può essere configurato come un singolo dispositivo autonomo o un cluster a due nodi. In un cluster a due nodi, i nodi in cluster offrono disponibilità elevata per applicazioni e servizi in esecuzione nel cluster.

Se uno dei nodi in cluster ha esito negativo, l'altro nodo inizia a fornire il servizio. Questo processo è noto come failover. Il failover può verificarsi anche se i componenti hardware associati a uno o entrambi i nodi del tuo dispositivo, come le unità disco, le unità di alimentazione (PSU) o la rete, si guastano o quando si aggiornano i nodi del dispositivo.

Scenari di failover

Il failover può verificarsi a causa di un errore del componente hardware, di un errore del nodo o durante l'aggiornamento del cluster Azure Stack Edge.

Errori hardware

Queste tabelle riepilogano gli scenari di errore per un componente hardware fisico associato al cluster del dispositivo, ad esempio una o più unità disco, alimentatore o rete.

Errori di unità disco

Nodo A Nodo B Il cluster sopravvive Failover dettagli
1 unità di disco fallisce Nessun errore No Il cluster è danneggiato fino a quando il disco non viene sostituito.
2 o più unità disco hanno esito negativo Nessun errore No Il cluster è danneggiato fino a quando il disco non viene sostituito.
1 o più unità disco hanno esito negativo 1 o più unità disco hanno esito negativo No Il cluster diventa offline.

Guasti dell'unità di alimentazione

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Guasto di 1 unità di alimentazione Nessun errore No Un altro guasto dell'alimentatore nel nodo A comporterà il failover nel nodo B.
Guasto di 1 unità di alimentazione Guasto di 1 unità di alimentazione No Un altro guasto di alimentazione in uno dei due nodi comporterà il failover.
2 PSU hanno esito negativo Nessun errore Le VM sul nodo A effettuano un failover verso il nodo B.
Guasto di 2 unità di alimentazione (TBC) Guasto di 1 unità di alimentazione Le macchine virtuali su nodo A eseguono il failover sul nodo B.
2 PSU hanno esito negativo 2 PSU hanno esito negativo No Il cluster diventa offline.

Errori di rete

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Porte 1, 2, 5 o 6 non funzionano. Nessun errore No La porta guasta non è disponibile. Le app in ascolto su questa porta sono interessate
1 o entrambe le porte 3 e porta 4 hanno esito negativo Nessun errore Le macchine virtuali sul nodo A vengono trasferite al nodo B.

Errori e aggiornamenti dei nodi

Errore del nodo

Questa tabella riepiloga gli scenari di errore quando un intero nodo ha fallito sul tuo cluster.

Nodo A Nodo B Il cluster sopravvive Failover dettagli
L'intero nodo fallisce Nessun errore Le macchine virtuali effettuano il failover dal nodo A al nodo B
L'intero nodo fallisce L'intero nodo fallisce No - Il cluster diventa offline
Riavvio Nessun errore Le macchine virtuali dal nodo A eseguono il failover al nodo B
Riavvio Riavvio No - Il cluster è offline fino al completamento del riavvio
Il componente principale ha esito negativo. Ad esempio, scheda madre, DIMM e disco del sistema operativo. Nessun errore Le macchine virtuali eseguono il failover dal nodo A al nodo B.
Il componente principale fallisce. Ad esempio, scheda madre, DIMM e disco del sistema operativo. Il componente cardine fallisce. Ad esempio, scheda madre, DIMM e disco del sistema operativo. No - Il cluster diventa offline

Aggiornamento del nodo

Nodo A Nodo B Il cluster sopravvive Failover dettagli
Aggiornamento del nodo Nessun errore Le macchine virtuali migrano dal nodo A al nodo B
Aggiornamento del nodo 2 PSU hanno esito negativo No - Il cluster diventa offline
Aggiornamento del nodo L'intero nodo si guasta o va offline No - Il cluster diventa offline
Aggiornamento del nodo Riavvio No - Il cluster diventa offline
Aggiornamento del nodo Il componente principale presenta guasti quali scheda madre, DIMM e disco del sistema operativo. No - Il cluster diventa offline

Passaggi successivi