Manutenção de nuvem privada da Solução VMware no Azure

A Solução VMware no Azure realiza a manutenção periódica da nuvem privada. Essa manutenção inclui patches de segurança, atualizações secundárias e principais para a pilha de software do VMware. Esta página descreve o monitoramento do host, a correção e as etapas obrigatórias que mantêm a nuvem privada pronta para manutenção.

Manutenção do host e gerenciamento do ciclo de vida

Um benefício das nuvens privadas da Solução VMware no Azure é que a plataforma é mantida para você. A Microsoft é responsável pelo gerenciamento do ciclo de vida do software VMware (ESXi, vCenter Server e vSAN) e dispositivos NSX. A Microsoft também é responsável por inicializar a configuração de rede, como criar o gateway de Camada 0 e habilitar o roteamento Norte-Sul. Você é responsável pela configuração do SDN do NSX: segmentos de rede, regras de firewall distribuídas, gateways de Camada 1 e balanceadores de carga.

Observação

Um gateway T0 é criado e configurado como parte de uma implantação de nuvem privada. Toda modificação no roteador lógico ou nas VMs do nó de borda NSX pode afetar a conectividade com sua nuvem privada e deve ser evitada.

A Microsoft é responsável por aplicar patches, atualizações ou upgrades ao ESXi, vCenter Server, vSAN e NSX em sua nuvem privada. O impacto de patches, atualizações e atualizações no ESXi, vCenter Server e NSX tem as seguintes considerações:

  • ESXi – não há nenhum impacto nas cargas de trabalho em execução na sua nuvem privada. O acesso ao vCenter Server e ao NSX não é bloqueado durante esse período. Durante esse tempo, recomendamos que você não planeje outras atividades como: dimensionar a nuvem privada, agendar ou iniciar migrações HCX ativas, fazer alterações na configuração do HCX e assim por diante, em sua nuvem privada.

  • vCenter Server – As cargas de trabalho em execução na nuvem privada não serão impactadas. Durante esse tempo, o vCenter Server não está disponível e você não pode gerenciar VMs (parar, iniciar, criar ou excluir). Recomendamos que você não planeje outras atividades, como escalar verticalmente a nuvem privada, criar novas redes e assim por diante, em sua nuvem privada. Ao usar interfaces de usuário do VMware Site Recovery Manager ou vSphere Replication, recomendamos que você não execute nenhuma das ações: configurar a Replicação do vSphere e configurar ou executar planos de recuperação de site durante a atualização do vCenter Server.

  • NSX - Microsoft segue o fluxo de trabalho de atualização NSX padrão do Broadcom. As atualizações do NSX Edge são feitas primeiro e executadas uma a uma. Isso pode resultar em quedas transitórias de pacotes quando o Edge faz a transição normalmente para outra borda ativa durante a atualização. Normalmente, isso não afeta os aplicativos finais, já que a retransmissão na camada TCP geralmente resolve o problema. Para os hosts, o Solução VMware no Azure usa upgrades de host com modo de manutenção para evitar qualquer impacto durante os upgrades dos hosts; esse processo move todas as VMs para outros hosts no cluster e coloca os hosts em modo de manutenção antes de atualizá-los. Durante a atualização, o acesso ao plano de gerenciamento do NSX é bloqueado e as alterações de configuração no ambiente NSX não podem ser feitas. Recomendamos que você não planeje outras atividades, como ampliar a nuvem privada, entre outras, em sua nuvem privada. Outras atividades podem impedir que a atualização seja iniciada ou podem ter impactos adversos na atualização e no ambiente.

Você é notificado por meio da Integridade do Serviço do Azure que inclui a linha do tempo da atualização. A notificação também fornece detalhes sobre o componente atualizado, seu efeito sobre cargas de trabalho, acesso à nuvem privada e outros serviços do Azure. É possível reagendar uma atualização conforme necessário.

As atualizações de software incluem:

  • Patches - Patches de segurança ou correções de bugs lançados pela VMware

  • Atualizações - Alteração da versão secundária de um componente de pilha do VMware

  • Upgrades - Alteração da versão principal de um componente de pilha do VMware

Observação

A Microsoft testa um patch de segurança crítico assim que ele é disponibilizado no VMware.

Soluções alternativas documentadas do VMware são implementadas em vez da instalação de um patch correspondente, até que as próximas atualizações programadas sejam implantadas.

Monitoramento e correção de host

A Solução VMware no Azure monitora continuamente a integridade dos componentes e da subposição do VMware. Quando a Solução VMware no Azure detecta uma falha, ela executa uma ação para reparar os componentes com falha. Quando a Solução VMware no Azure detecta uma degradação ou falha em um nó da Solução VMware no Azure, ela dispara o processo de correção do host.

A correção do host envolve a substituição do nó com falha por um novo nó íntegro no cluster. Em seguida, quando possível, o host com falha é colocado no modo de manutenção VMware vSphere. O VMware vSphere vMotion move as VMs do host com falha para outros servidores disponíveis no cluster, potencialmente permitindo tempo de inatividade zero para migração dinâmica de cargas de trabalho. Se o host com falha não puder ser colocado no modo de manutenção, o host será removido do cluster. Antes que o host defeituoso seja removido, as cargas de trabalho do cliente são migradas para um host recém-adicionado.

Dica

Comunicação do cliente: um email é enviado para o endereço de email do cliente antes que a substituição seja iniciada e novamente após a substituição ser bem-sucedida.

Para receber emails relacionados à substituição de host, você deve ser adicionado a uma das seguintes funções de Azure Role-Based Controle de Acesso (RBAC) na assinatura: 'ServiceAdmin', 'CoAdmin', 'Owner' ou 'Contributor'.

A Solução VMware no Azure monitora as seguintes condições no host:

  • Status do processador
  • Status da memória
  • Estado de conexão e potência
  • Status do ventilador de hardware
  • Perda de conectividade de rede
  • Status da placa do sistema de hardware
  • Erros ocorreram em um ou mais discos de um host vSAN
  • Tensão de hardware
  • Status da temperatura do hardware
  • Status de potência de hardware
  • Status do armazenamento
  • Falha de conexão

Ações para garantir que a nuvem privada esteja pronta para manutenção

As seguintes ações são necessárias para garantir que as operações de manutenção do host sejam realizadas com êxito:

  • Utilização do armazenamento vSAN: Para manter o SLA (Contrato de Nível de Serviço), verifique se a utilização do espaço de armazenamento do cluster vSphere permanece abaixo de 75%. Se a utilização exceder 75%, as atualizações poderão levar mais tempo do que o esperado ou falhar totalmente. Se a utilização do armazenamento exceder 75%, considere adicionar um nó para expandir o cluster e evitar um possível tempo de inatividade durante as atualizações.
  • Regras de DRS (Agendador de Recursos Distribuídos): as regras anti-afinidade de VM-VM do DRS devem ser configuradas de forma a ter pelo menos hosts (N+1) no cluster, em que N é o número de VMs que fazem parte da regra de DRS.
  • Violação de Failures To Tolerate (FTT): Evite a perda de dados alterando as VMs configuradas com uma política de armazenamento vSAN com Failures To Tolerate (FTT) igual a 0 para uma política de armazenamento vSAN em conformidade com Microsoft SLA (FTT=1 para até cinco hosts em um cluster e FTT=2 para seis ou mais hosts em um cluster). Verifique se as operações de manutenção do host podem ser executadas perfeitamente.
  • Remova as montagens de CD-ROM da VM: VMs montadas com a manutenção de host de bloco do CD-ROMs do "modo de emulação". Verifique se os CD-ROMs estão montados em "Modo de passagem".
  • Porta serial/paralela ou dispositivo externo: Se você estiver usando um arquivo de imagem (ISO, FLP etc.), verifique se ele está acessível de todos os hosts ESXi no cluster. Armazene os arquivos em um armazenamento de dados que são compartilhados entre todos os servidores ESXi que participam do vMotion da VM (máquina virtual). Para obter mais informações, consulte o artigo do Broadcom KB.
  • VMs órfãs: Para VMs órfãs, elas precisarão ser re-registradas se ainda não tiverem sido excluídas ou removidas do inventário. Para obter mais informações, consulte o artigo do Broadcom KB.
  • Controlador compartilhado SCSI: ao usar o compartilhamento de barramento SCSI, configure o tipo de barramento como "Físico" para VMs. As VMs conectadas aos controladores SCSI virtuais são desligadas. Para obter mais informações, consulte o artigo do Broadcom KB.
  • VMs e aplicativos de terceiros: Para VMs e aplicativos de terceiros:
    • Verifique se as soluções de terceiros implantadas na Solução VMware no Azure estão em conformidade e não interferem nas operações de manutenção.
    • Verifique se a VM não está instalada com uma regra de DRS "Deve executar" de VM-Host. Além disso, verifique se esses aplicativos são compatíveis com as versões futuras da plataforma VMware.
    • Consulte o fornecedor da solução e atualize com antecedência, se necessário, para manter a compatibilidade pós-atualização.

Importante

Se houver configurações de bloqueio de manutenção em um host Solução VMware no Azure, você receberá alertas em seu painel de Resource Health. Para garantir que hosts não íntegros sejam substituídos e que as atualizações sejam bem-sucedidas, essas configurações de bloqueio são atenuadas seguindo as etapas de correção apropriadas para manter a disponibilidade da nuvem privada. Em alguns casos, essas etapas de correção incluem desligar uma VM e migrá-la para outro host e, em seguida, acioná-la, o que pode interromper brevemente a execução do aplicativo na VM.

Códigos de alerta e tabela de correção

Código de erro Detalhes do erro Ação recomendada
EPC_CDROM_EMULATEMODE Ocorre um erro quando CD-ROM na VM usa o modo de emulação, cuja imagem ISO não está acessível. Siga este artigo de KB para a remoção de CDROM montado em uma VM de carga de trabalho de clientes no modo de emulação ou desanexe ISO. A recomendação é utilizar o "Passthrough mode" para montar qualquer CD-ROM.
EPC_DRSOVERRIDERULE Ocorre um erro quando existe uma VM com a substituição do DRS definido com o modo "Desabilitado". A VM não deve bloquear o vMotion ao colocar o host em manutenção. Defina regras de DRS parcialmente automatizadas para a VM. Consulte este documento para saber mais sobre as políticas de posicionamento da VM.
EPC_SCSIDEVICE_SHARINGMODE Ocorre um erro quando uma VM é configurada para usar o controlador SCSI com compartilhamento de barramento no modo "virtual". Siga este artigo do KB para a remoção de qualquer controlador SCSI participando do compartilhamento de barramento no modo virtual que esteja anexado às VMs.
EPC_DATASTORE_INACCESSIBLE Ocorre um erro quando qualquer armazenamento de dados externo anexado ao Solução VMware no Azure Nuvem Privada se torna inacessível. Siga este artigo para a remoção de qualquer Armazenamento de Dados obsoleto anexado ao cluster
EPC_NWADAPTER_STALE Ocorre um erro quando a interface de rede conectada na VM usa um adaptador de rede que fica inacessível. Siga este artigo de KB para a remoção de todos os adaptadores N/W obsoletos anexados às VMs.
EPC_SERIAL_PORT Ocorre um erro quando uma porta serial de VM está conectada a um dispositivo que não pode ser acessado no host de destino. Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível de todos os servidores ESXi no cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da VM. Para obter mais informações, consulte este artigo de KB do Broadcom.
EPC_HARDWARE_DEVICE Ocorre um erro quando uma porta paralela/dispositivo USB de uma VM está conectada a um dispositivo que não pode ser acessado no host de destino. Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível de todos os servidores ESXi do cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da VM. Saiba mais sobre Broadcom e sobre a falha do VMotion com o erro de compatibilidade.
EPC_INVALIDVM/EPC_ORPHANVM Ocorre um erro quando há uma VM órfã ou inválida presente no inventário. Verifique se todas as suas VMs estão acessíveis ao vCenter. Saiba mais sobre Broadcom e VMs que aparecem como inválidas, órfãs ou inacessíveis.
EPC_VMHOSTDRSRULE Ocorre um erro quando existe uma VM com uma regra de afinidade/antiafinidade de host do DRS. A VM não deve bloquear o VMware vMotion ao colocar um host no modo de manutenção. Defina regras de preferência para afinidade entre VM e host. Saiba mais sobre como criar política de posicionamento.
EPC_FTT_ZERO Ocorre um erro quando uma VM tem "Falhas a tolerar" definido como 0 ou "Sem redundância de dados". Saiba mais sobre o Broadcom e como configurar o FTT como 1 ou 2 para a VM.
EPC_FTTVIOLATION Ocorre um erro quando um cluster não tem o número mínimo de hosts necessários para a política de armazenamento. Adicionar hosts conforme necessário pela política de armazenamento ou alterar a política FTT da VM para permitir colocar o host em modo de manutenção. Saiba mais sobre Broadcom e a política de FTT.
EPC_VSANSTORAGEUTILIZATION Ocorre um erro quando a utilização de vSAN no cluster está acima de 75%, o que pode levar à degradação do desempenho e tornaria o cluster inaltencável. Se a utilização de vSAN no cluster estiver acima de 75%, você poderá adicionar nós para aumentar a capacidade disponível ou reduzir a utilização de dados no cluster. Siga este documento tutorial Tutorial - Dimensionar clusters em uma nuvem privada para escalar o vSAN. Siga as instruções para soluções de backup para máquinas virtuais do Solução VMware no Azure para aprender a fazer backup e remover VMs que não são essenciais.
ERECOMMENDATION_CLUSTER_SIZE Essa recomendação indica que um cluster na nuvem privada tem 14 ou mais hosts. Solução VMware no Azure dá suporte a no máximo 16 hosts em um cluster. Crie um novo cluster para novos hosts que possam ser necessários.
ERECOMMENDATION_PRIVATECLOUD_SIZE Essa recomendação indica que uma nuvem privada tem 90 ou mais hosts. Solução VMware no Azure dá suporte a no máximo 96 hosts em uma nuvem privada. Considere criar uma nova nuvem privada para quaisquer novos hosts e distribua os hosts pelas nuvens privadas conforme necessário.
ERECOMMENDATION_VCENTER_SCALE Essa recomendação identifica que a VM do vCenter é provisionada com menos núcleos de CPU ou menos memória do que o recomendado para a contagem de VM atual na nuvem privada. Abra uma solicitação de suporte para aumentar a memória e a CPU do vCenter.

Observação

Solução VMware no Azure administradores de locatário não devem editar ou excluir os alarmes do VMware vCenter Server definidos anteriormente porque o plano de controle Solução VMware no Azure no vCenter Server os gerencia. Esses alarmes são usados pelo monitoramento da Solução VMware no Azure para disparar o processo de remediação de seu host.

Próximas etapas

Você aprendeu a garantir a manutenção de nuvem privada Solução VMware no Azure perfeita. Sua próxima etapa pode ser saber mais sobre: