Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Solução VMware no Azure fornece clouds privadas que contêm clusters VMware vSphere construídos a partir de infraestrutura dedicada de Azure bare-metal. Pode migrar cargas de trabalho dos seus ambientes locais, implementar novas máquinas virtuais (VMs) e consumir serviços Azure a partir das suas clouds privadas. Pode usar uma combinação de capacidades VMware e Azure-native para permitir alta disponibilidade e resiliência das suas cargas de trabalho.
Quando se usa Azure, fiabilidade é uma responsabilidade partilhada. A Microsoft disponibiliza uma variedade de capacidades para apoiar a resiliência e a recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.
Este artigo descreve como tornar o Solução VMware no Azure resiliente a potenciais falhas e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode usar backups para recuperar de outros tipos de problemas e destaca algumas informações essenciais sobre o acordo de nível de serviço (SLA) do Solução VMware no Azure.
Recomendações de implantação de produção
As implementações do Solução VMware no Azure exigem um planeamento cuidadoso em várias áreas e frequentemente requerem múltiplos serviços Azure. Para mais informações, consulte workloads do Solução VMware no Azure no Azure Well-Architected Framework.
Visão geral da arquitetura de confiabilidade
O Solução VMware no Azure utiliza uma infraestrutura hiperconvergente (HCI) com clusters VMware vSphere.
Quando implementas Solução VMware no Azure, implementas uma cloud privada, que tem um ou mais clusters. Cada cluster contém hosts ESXi que fornecem computação, armazenamento através de SAN virtual (vSAN) e rede através do VMware NSX. Existem duas gerações do Solução VMware no Azure:
Gen 1 utiliza hardware bare-metal especializado para os nós e aborda abordagens de rede dedicadas. Para mais informações sobre os conceitos-chave, consulte Solução VMware no Azure cloud privada e conceitos de cluster.
Gen 2 utiliza tipos padrão de VM Azure e redes virtuais Azure. Esta arquitetura simplifica a arquitetura de rede, melhora as velocidades de transferência de dados, reduz a latência das cargas de trabalho e melhora o desempenho quando acede a outros serviços Azure.
Tolerância a falhas
O Solução VMware no Azure fornece vários mecanismos para lidar com falhas tanto a nível da infraestrutura como da aplicação:
vSphere High Availability (HA): o vSphere HA monitoriza hosts e VMs ESXi. Se um host falhar, reinicia automaticamente as VMs afetadas em hosts saudáveis. O vSphere HA é ativado por padrão e reserva capacidade de computação e memória para uma falha de um único nó.
Tolerância a falhas vSAN: as políticas de armazenamento vSAN protegem contra falhas transitórias ao nível de armazenamento, mantendo múltiplas cópias de dados entre hosts. Se um caminho de armazenamento ou disco tiver problemas transitórios, o vSAN gere automaticamente o failover para caminhos de armazenamento saudáveis.
redundância de rede: Solução VMware no Azure fornece caminhos de rede redundantes e múltiplos adaptadores de rede VMkernel para lidar com falhas transitórias ao nível da rede.
Resiliência a falhas transitórias
Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.
Todas as aplicações alojadas na cloud devem seguir as orientações de tratamento de falhas transitórias do Azure quando comunicarem com quaisquer APIs, bases de dados e outros componentes alojados na cloud. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.
Para aplicações que correm em VMs Solução VMware no Azure, implemente práticas padrão para lidar com falhas transitórias:
Configure políticas de tentativas apropriadas com backoff exponencial.
Use padrões de disjuntores para chamadas de serviço externo.
Monitorizar a saúde da aplicação e implementar uma degradação gradual.
Projete aplicações sem estado sempre que possível para reduzir o impacto dos reinícios de VMs.
Resiliência a falhas na zona de disponibilidade
Zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.
Solução VMware no Azure Gen 1 suporta zonas de disponibilidade através de clusters extensos, que distribuem os hosts ESXi por duas zonas de disponibilidade dentro de uma região. A Microsoft seleciona as zonas a utilizar. O teu cluster corre numa configuração ativo-ativo nas duas zonas, e o vSAN também abrange várias zonas. Pode indicar se cada carga de trabalho está distribuída em uma ou duas zonas.
Um nó testemunha é automaticamente implantado numa terceira zona de disponibilidade para garantir quórum em cenários de cérebro dividido. A Microsoft gere automaticamente o nó testemunha.
Um cluster padrão é um cluster que não está estendido por várias zonas. Num cluster padrão, o cluster e todos os seus hosts ESXi são considerados não zonais ou regionais. Clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região, e a Microsoft seleciona essa zona. Se uma zona de disponibilidade na região sofrer uma falha, clusters e hosts não zonais podem estar na zona afetada e sofrer tempo de inatividade.
Solução VMware no Azure Gen 2 suporta implementações zonais de clouds privadas. Quando configuras uma cloud privada zonal, cada um dos seus clusters e todos os seus hosts ESXi são implementados numa única zona de disponibilidade que selecionas.
Uma cloud privada zonal não protege contra falhas nas zonas de disponibilidade. Pode implementar várias clouds privadas em zonas de disponibilidade separadas para maior resiliência, mas é responsável por implementar e configurar cada cloud privada de forma independente.
Se não selecionares uma zona de disponibilidade, a tua cloud privada, os seus clusters e todos os seus hosts ESXi são considerados não zonais ou regionais. Clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região, e a Microsoft seleciona essa zona. Se uma zona de disponibilidade na região sofrer uma interrupção, os agrupamentos não zonais nessa zona afetada podem experienciar tempo de inatividade.
Para mais informações sobre o suporte de zonas de disponibilidade para outras gerações, selecione a geração apropriada no início deste artigo.
Requerimentos
Suporte de Regiões: Os clusters esticados estão disponíveis apenas nas regiões do Azure que suportam a configuração de clusters esticados. Verifique a tabela de mapeamento da zona de disponibilidade da região Azure para o tipo de host para o suporte atual da região.
Número mínimo de anfitriões: Implante um mínimo de seis hosts em duas zonas de disponibilidade (três hosts para cada zona) para permitir a configuração de clusters estendidos. Quando se escala para dentro ou para fora, tem de escalar em pares para que cada zona tenha o mesmo número de hospedeiros.
SKUs de hosts: Os tipos de host AV36, AV36P e AV52 suportam clusters estendidos. O SKU AV64 não suporta clusters esticados.
- Suporte Regional: Pode implementar clouds privadas zonais em regiões que suportem tanto Solução VMware no Azure Gen 2 como availability zones.
Considerações
Cada zona de disponibilidade numa região pode suportar tipos específicos de hospedeiros. Para uma lista detalhada dos tipos de hosts disponíveis em cada zona, consulte tabela de mapeamento de tipos de host para zonas de disponibilidade da região Azure.
Custo
Incorrem custos para cada nó do cluster, independentemente da configuração da zona de disponibilidade do cluster. Para informações detalhadas sobre preços, consulte Solução VMware no Azure preços.
Configurar o suporte à zona de disponibilidade
Implementar um novo cluster: Quando crias uma nova cloud privada Solução VMware no Azure numa região suportada, podes configurá-la como um cluster estendido durante a implementação. Esta configuração distribui os hosts automaticamente entre duas zonas de disponibilidade. Para obter mais informações, consulte Implementar clusters expandidos vSAN.
Clusters existentes: Não se pode converter um cluster padrão num cluster alongado, nem um cluster alongado num cluster padrão. Em vez disso, precisa de implementar um novo cluster e migrar as suas cargas de trabalho.
Implementar um novo cluster: Quando cria uma nova cloud privada Solução VMware no Azure numa região suportada, pode selecionar a sua zona de disponibilidade.
Clusters existentes: Não podes alterar a configuração da zona de disponibilidade de um cluster existente. Em vez disso, precisa de implementar um novo cluster e migrar as suas cargas de trabalho.
Comportamento quando todas as zonas estão íntegras
Esta secção descreve o que esperar quando o seu cluster está sobrecarregado e todas as zonas de disponibilidade estão operacionais.
Operação entre zonas: As VMs podem funcionar em hosts em qualquer uma das zonas de disponibilidade. Pode controlar a colocação das VMs usando regras de afinidade e anti-afinidade do vSphere Distributed Resource Scheduler (DRS) para otimizar os requisitos de desempenho ou disponibilidade.
Replicação de dados entre zonas: o vSAN replica os dados de forma síncrona entre zonas de disponibilidade. Ambas as zonas confirmam cada operação de escrita antes da sua conclusão, para garantir a integridade consistente dos dados.
Esta secção descreve o que esperar quando o seu cluster é implementado numa nuvem privada zonal e todas as zonas de disponibilidade estão operacionais.
Operação entre zonas: As VMs funcionam em hosts dentro da zona de disponibilidade do cluster.
Replicação de dados entre zonas: Nenhum dado é replicado para outra zona.
Comportamento durante uma falha de zona
Esta secção descreve o que esperar quando o seu cluster está sobrecarregado e ocorre uma falha na zona de disponibilidade.
- Deteção e resposta: Solução VMware no Azure gere a resposta ao nível da infraestrutura a falhas de zona. O vSphere HA deteta automaticamente falhas de zona e inicia procedimentos de reinício da VM, se necessário.
- Notification: A Microsoft não o notifica automaticamente quando uma zona está inativa. No entanto, pode usar Azure Resource Health para monitorizar a saúde de um recurso individual, e pode configurar alertas Resource Health para o notificar de problemas. Também pode usar Azure Service Health para compreender o estado geral do serviço, incluindo quaisquer falhas de zona, e pode configurar alertas Saúde do Serviço para o notificar de problemas.
Pedidos ativos: Quaisquer VMs que corram na zona de disponibilidade falhada reiniciam em hosts na zona de disponibilidade saudável. Os pedidos ativos e as ligações às VMs afetadas terminam, e os clientes são responsáveis por os tentar novamente.
Tempo de inatividade previsto: O tempo para reiniciar VMs falhadas na zona saudável é normalmente de alguns minutos, dependendo da configuração da VM e dos procedimentos de arranque. O conjunto esticado mantém-se operacional com capacidade reduzida.
Se a zona de disponibilidade falhada contiver o nó testemunha, a testemunha torna-se inacessível. Enquanto houver réplicas de dados suficientes disponíveis, os anfitriões de dados e cargas de trabalho em execução continuam a operar sem perda imediata de dados. No entanto, o vSAN perde a perceção do quórum neste estado. A perda de quórum impede-o de tomar decisões seguras de colocação e recuperação. Também bloqueia certas operações, como a ligação da VM após falhas, reequilíbrios e reparações.
Perda de dados esperada: Como o vSAN utiliza replicação síncrona entre zonas, não se espera perda de dados durante uma falha de zona.
Redistribuição: o vSphere DRS redistribui automaticamente as cargas de trabalho das VMs para a zona de disponibilidade saudável. O encaminhamento do tráfego de rede através do VMware NSX adapta-se automaticamente à nova posição da VM.
Esta secção descreve o que esperar quando o seu cluster é implementado numa nuvem privada zonal e ocorre uma falha na zona de disponibilidade.
- Deteção e resposta: É preciso detetar a perda de uma zona de disponibilidade. Se necessário, pode iniciar um failover para um cluster secundário que criou anteriormente noutra zona de disponibilidade.
- Notification: A Microsoft não o notifica automaticamente quando uma zona está inativa. No entanto, pode usar Azure Resource Health para monitorizar a saúde de um recurso individual, e pode configurar alertas Resource Health para o notificar de problemas. Também pode usar Azure Service Health para compreender o estado geral do serviço, incluindo quaisquer falhas de zona, e pode configurar alertas Saúde do Serviço para o notificar de problemas.
Pedidos ativos: Os pedidos ativos e as ligações às VMs afetadas terminam, e os clientes são responsáveis por os tentar novamente.
Tempo de inatividade previsto: Quando uma zona está indisponível, o seu cluster e as suas cargas de trabalho ficam indisponíveis até que a zona de disponibilidade recupere.
Perda de dados esperada: Os dados na zona afetada não estão disponíveis até que a zona recupere.
Redistribuição: És responsável por transferir o tráfego para outros clusters em zonas saudáveis, se necessário.
Recuperação de zona
Quando a zona de disponibilidade recupera, o vSphere DRS pode opcionalmente redistribuir VMs de volta para a zona recuperada com base nas regras de configuração e afinidade do seu DRS. Também pode controlar manualmente a colocação da VM usando operações vMotion.
Quando a zona de disponibilidade recupera, os clusters e anfitriões dessa zona ficam novamente disponíveis. Você é responsável por todos os procedimentos de recuperação de zona e sincronização de dados que suas cargas de trabalho exigem.
Teste de falhas de zona
Para se preparar para falhas de zona, teste a resiliência da sua aplicação a reinícios de VMs e alterações no caminho da rede, especialmente quando tem clusters esticados ou implementa aplicações em clusters separados em zonas diferentes.
Como o Solução VMware no Azure gere a resposta da infraestrutura a falhas de zona, precisa principalmente de testar a resposta da sua aplicação a reinicios de VM.
És responsável por qualquer resposta de infraestrutura a falhas de zona, como failover para outro cluster numa zona ou região diferente. Certifique-se de testar cuidadosamente os seus processos de resposta.
Resiliência a falhas em toda a região
Cada cluster Solução VMware no Azure é implementado numa única região Azure. Se a região ficar indisponível, a sua nuvem privada e todos os recursos dentro dela tornam-se indisponíveis.
No entanto, também pode conceber soluções personalizadas multi-região que combinem diferentes abordagens ou se integrem com a sua infraestrutura existente para satisfazer os requisitos específicos do seu negócio e objetivos de recuperação.
Soluções personalizadas de várias regiões para resiliência
Para alcançar resiliência multi-região com o Solução VMware no Azure, é necessário implementar clouds privadas separadas em múltiplas regiões e implementar soluções de failover e outras soluções de recuperação de desastres (DR).
Uma variedade de opções suporta diferentes requisitos de resiliência. Para mais informações, consulte Soluções de recuperação de desastres para máquinas virtuais Solução VMware no Azure.
Backup e restauração
O Solução VMware no Azure faz backup automático dos componentes de gestão, como o vCenter Server, NSX Manager e HCX Manager, se estiver ativado. Para restaurar componentes a partir destes backups de gestão, crie um pedido de suporte do Azure.
Para as suas cargas de trabalho de VM, o Solução VMware no Azure suporta múltiplas abordagens de backup. Para mais informações, consulte Soluções de backup para Solução VMware no Azure VMs.
Resiliência à manutenção de serviços
O Azure faz manutenção automática da plataforma para aplicar atualizações de segurança, implementar novas funcionalidades e melhorar a fiabilidade dos serviços.
Para saber como a manutenção afeta os componentes da Solução VMware no Azure e para compreender os componentes pelos quais é responsável pela manutenção, em comparação com os componentes que a Microsoft mantém, veja manutenção da cloud privada da Solução VMware no Azure.
Pode configurar as janelas de manutenção do seu cluster para reduzir a probabilidade de a manutenção afetar as suas cargas de trabalho de produção. Para mais informações, veja Planear manutenção de autoatendimento para Solução VMware no Azure.
Contrato de nível de serviço
O acordo de nível de serviço (SLA) para serviços Azure descreve a disponibilidade esperada de cada serviço e as condições que a sua solução deve cumprir para atingir essa expectativa de disponibilidade. Para mais informações, consulte SLAs para serviços online.
O Solução VMware no Azure fornece diferentes SLAs de disponibilidade para infraestrutura de carga de trabalho e para operações de gestão.
Clusters que são configurados como clusters estendidos têm um SLA mais elevado de disponibilidade de infraestrutura para cargas de trabalho.
No entanto, para se qualificar para os SLAs de disponibilidade, deve configurar o seu cluster de formas específicas. Para mais informações, consulte o texto SLA.