Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Espaço Gerenciado do Azure para Grafana fornece workspaces do Grafana hospedados para a criação de dashboards e visualizações. Microsoft gerencia toda a infraestrutura subjacente, incluindo computação, rede, armazenamento e atualizações de serviço.
Quando você usa o Azure, reliability é uma responsabilidade compartilhada. Microsoft fornece uma variedade de recursos para dar suporte à resiliência e recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.
Este artigo descreve como tornar os Espaço Gerenciado do Azure para Grafana resilientes a uma variedade de possíveis interrupções e problemas, incluindo falhas transitórias, interrupções de zona de disponibilidade e interrupções de região. Ele também descreve como você pode fazer backup e se recuperar de outros tipos de problemas e realça as principais informações sobre o SLA (contrato de nível de serviço) Espaço Gerenciado do Azure para Grafana.
Recomendações de implantação de produção para confiabilidade
Para aumentar a confiabilidade das implantações de produção usando Espaço Gerenciado do Azure para Grafana, recomendamos que você execute as seguintes ações:
Habilite a redundância de zona ao criar um espaço de trabalho para fornecer resiliência a falhas de zona de disponibilidade.
Store dashboards e outros recursos do Grafana como código, por exemplo, exportando-os da API ou da CLI do Grafana e armazenando-os em um repositório de controle do código-fonte como GitHub. Utilize pipelines de CI/CD (integração contínua e entrega contínua) para implantar os dashboards no Espaço Gerenciado do Azure para Grafana. Essa abordagem dá suporte a cenários de recuperação. Ele também habilita a implantação em várias instâncias do Grafana, incluindo instâncias em regiões de Azure diferentes, se necessário.
Visão geral da arquitetura de confiabilidade
Esta seção descreve alguns dos aspectos importantes de como o serviço funciona que são mais relevantes do ponto de vista da confiabilidade. A seção apresenta a arquitetura lógica, que inclui alguns dos recursos e recursos que você implanta e usa. Também discute a arquitetura física, que fornece detalhes sobre como o serviço funciona nos bastidores.
Arquitetura lógica
O recurso de Azure primário que você implanta é um workspace. Depois de implantar seu workspace, use o ponto de extremidade do Grafana do workspace para configurar e interagir com fontes de dados, dashboards, visualizações e outros recursos do Grafana.
Arquitetura física
Quando você cria um workspace, internamente, a plataforma Azure provisiona os seguintes componentes subjacentes:
Servidores Grafana: VMs (máquinas virtuais) dedicadas que executam o aplicativo Grafana. Por padrão, dois servidores são provisionados para alta disponibilidade e redundância. Microsoft gerencia totalmente esses servidores. Você não os vê em sua assinatura, não pode acessá-los e não é responsável pela aplicação de patches, escalabilidade ou manutenção.
Balanceador de carga: Um balanceador de carga de rede que distribui solicitações de navegador de entrada entre os servidores Grafana. O balanceador de carga monitora a integridade do servidor e encaminha automaticamente o tráfego para longe de servidores não íntegros.
Backend database: Um banco de dados Banco de Dados do Azure para PostgreSQL que armazena a configuração do espaço de trabalho e outros dados persistentes. Todos os servidores Grafana no workspace compartilham esse banco de dados. Para obter mais informações sobre resiliência de banco de dados, consulte Reliability no Banco de Dados do Azure para PostgreSQL.
Você não vê nem gerencia esses componentes. Microsoft implanta e gerencia-os em seu nome.
O balanceador de carga controla quais servidores Grafana estão disponíveis. Em uma configuração de servidor duplo, se um servidor ficar indisponível, o balanceador de carga enviará todas as solicitações para o servidor restante. Esse servidor seleciona as sessões do navegador que o servidor com falha lidou anteriormente, com base nas informações no banco de dados compartilhado. Enquanto isso, o Espaço Gerenciado do Azure para Grafana repara ou substitui o servidor com problemas.
Diagrama de arquitetura que mostra um ambiente de trabalho Espaço Gerenciado do Azure para Grafana por trás de um gateway compartilhado. Um balanceador de carga distribui o tráfego para dois servidores Grafana que se conectam a um banco de dados compartilhado.
Resiliência a falhas transitórias
Falhas transitórias são falhas curtas e intermitentes nos componentes. Elas ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. Falhas transitórias se corrigem após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente repetindo solicitações afetadas.
Todos os aplicativos hospedados na nuvem devem seguir as diretrizes transitórias de tratamento de falhas Azure quando se comunicam com apis, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, confira Recomendações para tratamento de falhas transitórias.
Você pode criar aplicativos cliente para interagir com seu workspace do Grafana por meio da API do Grafana. Garanta que esses aplicativos sigam as diretrizes de repetição do Azure para solicitações com falha.
Resiliência a falhas de zona de disponibilidade
as zonas Availability são grupos fisicamente separados de datacenters em uma região Azure. Quando uma zona falha, os serviços podem fazer o failover de uma das zonas restantes.
Os workspaces do Espaço Gerenciado do Azure para Grafana dão suporte à redundância de zona em regiões do Azure com suporte. Quando a redundância de zona está habilitada, os servidores Grafana do workspace são distribuídos entre várias zonas de disponibilidade. Microsoft seleciona as zonas que seu espaço de trabalho usa. Outros recursos, como o balanceador de carga de rede, o banco de dados e o gateway compartilhado, também são configurados para usar várias zonas de disponibilidade.
Diagrama de arquitetura que mostra um workspace Espaço Gerenciado do Azure para Grafana implantado em três zonas de disponibilidade. Um balanceador de carga roteia o tráfego para servidores Grafana nas zonas 1 e 2 e um banco de dados compartilhado que abrange todas as zonas.
Se você não habilitar a redundância de zona, o workspace será nonzonal ou regional, o que significa que os servidores e outros componentes podem ser colocados em qualquer zona de disponibilidade dentro da região ou dentro da mesma zona. Se qualquer zona de disponibilidade na região tiver um problema, seu ambiente de trabalho poderá sofrer tempo de inatividade.
Requirements
Suporte à região: O suporte à redundância de zona está disponível nas regiões a seguir.
| Américas | Europa | Pacífico Asiático |
|---|---|---|
| Leste dos EUA | Europa Setentrional | Leste da Austrália |
| Centro-Sul dos EUA | Ásia Oriental | |
| Oeste dos EUA 3 |
Custo
A redundância de zona adiciona um custo extra. Para obter mais informações, consulte Espaço Gerenciado do Azure para Grafana preços.
Configurar o suporte à zona de disponibilidade
Criar um novo workspace com zonas de disponibilidade habilitadas: Habilitar a redundância de zona durante a criação do workspace por meio do portal Azure, dos modelos CLI do Azure, Bicep ou Azure Resource Manager (modelos do ARM).
Para obter mais informações, consulte Habilitar redundância de zona no Espaço Gerenciado do Azure para Grafana.
Configurar a redundância de zona em um workspace existente: Você não pode habilitar ou desabilitar a redundância de zona em um workspace existente. Em vez disso, você precisa criar um novo workspace que use a configuração de redundância de zona desejada, migrar seus painéis e configuração e, em seguida, excluir o workspace existente.
Comportamento quando todas as zonas estão saudáveis
Esta seção descreve o que esperar quando você configura um workspace com redundância de zona e todas as zonas de disponibilidade estão operacionais.
Roteamento de tráfego entre zonas: O balanceador de carga com redundância de zona distribui automaticamente as solicitações de entrada entre os servidores Grafana. Ambos os servidores podem processar o tráfego.
Replicação de dados entre zonas: As alterações nos dados do workspace são replicadas de forma síncrona em várias zonas de disponibilidade. Banco de Dados do Azure para PostgreSQL executa a replicação de dados. Para obter mais informações, consulte Reliability no Banco de Dados do Azure para PostgreSQL. Espaço Gerenciado do Azure para Grafana não implementa uma lógica de replicação personalizada extra além do que a plataforma de banco de dados fornece.
Comportamento durante uma falha de zona
Esta seção descreve o que esperar ao configurar um workspace para ser redundante por zona, e há uma interrupção em uma das zonas.
- Detecção e resposta: A plataforma Azure detecta e responde a uma falha em uma zona de disponibilidade. Você não precisa iniciar um failover de zona.
- Notification: Microsoft não notifica automaticamente quando uma zona está inoperante. No entanto, você pode usar Azure Resource Health para monitorar a integridade de um recurso individual e pode configurar alertas Resource Health para notificar você sobre problemas. Você também pode usar Integridade do Serviço do Azure para entender a integridade geral do serviço, incluindo quaisquer falhas de zona, e você pode configurar alertas Service Health para notificar você sobre problemas.
Perda de dados esperada: Nenhuma perda de dados é esperada durante uma interrupção da zona de disponibilidade.
Tempo de inatividade esperado: Seu workspace pode experimentar uma pequena quantidade de tempo de inatividade, normalmente limitado a alguns segundos, enquanto o tráfego é redirecionado para servidores íntegros. Verifique se os aplicativos cliente podem lidar com falhas transitórias adequadamente para minimizar os efeitos do tempo de inatividade.
Redirecionamento de tráfego: O tráfego de entrada é roteado automaticamente para o servidor na zona saudável. O serviço é executado com capacidade reduzida durante a interrupção da zona. Os servidores de substituição não são provisionados em zonas íntegras durante a interrupção.
Recuperação de zona
Microsoft gerencia a recuperação de zona automaticamente, incluindo a restauração da capacidade do serviço quando a zona afetada se torna íntegra novamente.
Testar falhas em zonas
A plataforma Azure gerencia o roteamento de tráfego, o failover e o failback para workspaces com redundância de zona. Esse recurso é totalmente gerenciado, então você não precisa iniciar ou validar processos de falha de zona de disponibilidade.
Resiliência a falhas em toda a região
Espaço Gerenciado do Azure para Grafana é um serviço de região única. Se a região não estiver disponível, seu workspace também estará indisponível.
Soluções personalizadas de várias regiões para resiliência
Para obter resiliência a interrupções regionais, você pode implantar vários workspaces do Grafana em regiões diferentes. Neste tipo de solução, você é responsável por:
Replicação de dashboards e configuração entre regiões. Por exemplo, você pode aplicar uma configuração consistente em vários workspaces usando CI/CD e controle do código-fonte.
Implementando o roteamento de tráfego e o failover no nível do aplicativo ou do cliente.
Backup e restauração
Espaço Gerenciado do Azure para Grafana não fornece funcionalidade interna de backup ou restauração para dashboards ou outras entidades do plano de dados. Para proteger contra exclusão acidental ou corrupção:
Use a API ou a CLI do Grafana para exportar dashboards e outras configurações do Grafana.
Armazene painéis exportados em um repositório de controle do código-fonte, como GitHub.
Utilize pipelines de CI/CD ou automação para reimplantar dashboards e configurações do Grafana.
Para a maioria das soluções, você não deve depender exclusivamente de backups. Em vez disso, use as outras funcionalidades descritas neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não protegem. Para obter mais informações, consulte O que são redundância, replicação e backup?.
Resiliência à manutenção do serviço
Microsoft aplica regularmente atualizações de serviço e executa outra manutenção. A plataforma Azure manipula essas atividades automaticamente, garantindo que a manutenção seja perfeita e transparente para você. Durante as operações de manutenção, você pode observar breves interrupções. Normalmente, essas interrupções duram alguns segundos. Verifique se os aplicativos cliente estão configurados para lidar com falhas transitórias para que sejam resilientes a breves interrupções.
Contrato de nível de serviço
O SLA (contrato de nível de serviço) para serviços de Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para atingir essa expectativa de disponibilidade. Para obter mais informações, consulte SLAs para serviços online.