Betrouwbaarheid in Azure Managed Grafana

Azure Managed Grafana biedt gehoste Grafana-werkruimten voor het bouwen van dashboards en visualisaties. Microsoft beheert alle onderliggende infrastructuur, waaronder berekeningen, netwerken, opslag en service-updates.

Wanneer u Azure gebruikt, is betrouwbaarheid een gedeelde verantwoordelijkheid. Microsoft biedt een scala aan mogelijkheden ter ondersteuning van tolerantie en herstel. U bent verantwoordelijk voor het begrijpen van de werking van deze mogelijkheden binnen alle services die u gebruikt en het selecteren van de mogelijkheden die u nodig hebt om te voldoen aan uw bedrijfsdoelstellingen en beschikbaarheidsdoelen.

In dit artikel wordt beschreven hoe u Azure Managed Grafana bestand maakt tegen verschillende mogelijke storingen en problemen, waaronder tijdelijke fouten, storingen in de beschikbaarheidszone en regiostoringen. Het beschrijft ook hoe u een back-up kunt maken en kunt herstellen van andere soorten problemen, en belicht belangrijke informatie over de service level agreement (SLA) van Azure Managed Grafana.

Aanbevelingen voor productie-implementatie voor betrouwbaarheid

Als u de betrouwbaarheid van productie-implementaties wilt verhogen met behulp van Azure Managed Grafana, raden we u aan de volgende acties uit te voeren:

  • Schakel zoneredundantie in wanneer u een werkruimte maakt om tolerantie te bieden voor fouten in de beschikbaarheidszone.

  • Store-dashboards en andere Grafana-resources als code, bijvoorbeeld door ze te exporteren vanuit de Grafana-API of CLI en deze op te slaan in een opslagplaats voor broncodebeheer, zoals GitHub. Gebruik CI/CD-pijplijnen (continue integratie en continue levering) om dashboards te implementeren in Azure Managed Grafana. Deze benadering ondersteunt herstelscenario's. Het maakt ook implementatie mogelijk voor meerdere Grafana-exemplaren, inclusief exemplaren in verschillende Azure regio's, indien nodig.

Overzicht van betrouwbaarheidsarchitectuur

In deze sectie worden enkele belangrijke aspecten beschreven van de werking van de service die het meest relevant is vanuit het perspectief van betrouwbaarheid. In de sectie wordt de logische architectuur geïntroduceerd, die enkele van de resources en functies bevat die u implementeert en gebruikt. Ook wordt de fysieke architectuur besproken, die details biedt over hoe de service achter de schermen werkt.

Logische architectuur

De primaire Azure resource die u implementeert, is een werkruimte. Nadat u uw werkruimte hebt geïmplementeerd, gebruikt u het Grafana-eindpunt van de werkruimte om gegevensbronnen, dashboards, visualisaties en andere Grafana-resources te configureren en ermee te werken.

Fysieke architectuur

Wanneer u een werkruimte maakt, richt het Azure platform de volgende onderliggende onderdelen in:

  • Grafana-servers: Toegewezen virtuele machines (VM's) waarop de Grafana-toepassing wordt uitgevoerd. Standaard worden twee servers ingericht voor hoge beschikbaarheid en redundantie. Microsoft deze servers volledig beheert. U ziet ze niet in uw abonnement, u hebt er geen toegang toe en u bent niet verantwoordelijk voor het patchen, schalen of onderhouden ervan.

  • Load balancer: Een netwerk load balancer die binnenkomende browseraanvragen over de Grafana-servers distribueert. De load balancer bewaakt de servergezondheid en routeert verkeer automatisch van ongezonde servers.

  • Databasebackend: Een Azure Database for PostgreSQL-database waarin werkruimteconfiguratie en andere permanente gegevens worden opgeslagen. Alle Grafana-servers in de werkruimte delen deze database. Zie Reliability in Azure Database for PostgreSQL voor meer informatie over databasetolerantie.

U ziet of beheert deze onderdelen niet. Microsoft implementeert en beheert deze namens u.

De load balancer houdt bij welke Grafana-servers beschikbaar zijn. Als één server in een configuratie met twee servers beschadigd raakt, verzendt de load balancer alle aanvragen naar de resterende server. Die server haalt de browsersessies op die de mislukte server eerder heeft verwerkt, op basis van informatie in de gedeelde database. Ondertussen herstelt of vervangt Azure Managed Grafana de beschadigde server.

Diagram met een Azure Managed Grafana werkruimte die bestaat uit twee VM's en een load balancer die is geïmplementeerd door de service.

Architectuurdiagram met een Azure Managed Grafana werkruimte achter een gedeelde gateway. Een load balancer verdeelt verkeer naar twee Grafana-servers die verbinding maken met een gedeelde database.

Tolerantie voor tijdelijke fouten

Tijdelijke fouten zijn korte, onregelmatige fouten in onderdelen. Ze vinden vaak plaats in een gedistribueerde omgeving, zoals de cloud, en ze zijn een normaal onderdeel van de bewerkingen. Tijdelijke fouten corrigeren zichzelf na een korte periode. Het is belangrijk dat uw toepassingen tijdelijke fouten kunnen afhandelen, meestal door de betreffende aanvragen opnieuw uit te voeren.

Alle cloudtoepassingen moeten de Azure richtlijnen voor tijdelijke foutafhandeling volgen wanneer ze communiceren met api's, databases en andere onderdelen die in de cloud worden gehost. Zie Aanbevelingen voor het afhandelen van tijdelijke foutenvoor meer informatie.

U kunt clienttoepassingen bouwen om te communiceren met uw Grafana-werkruimte via de Grafana-API. Zorg ervoor dat deze toepassingen Azure richtlijnen voor opnieuw proberen voor mislukte aanvragen volgen.

Tolerantie voor fouten in beschikbaarheidszones

Beschikbaarheidszones zijn fysiek afzonderlijke groepen datacenters binnen een Azure regio. Wanneer één zone uitvalt, kunnen services een failover uitvoeren naar een van de resterende zones.

Azure Managed Grafana werkruimten ondersteunen zoneredundantie in ondersteunde Azure regio's. Wanneer zoneredundantie is ingeschakeld, worden de Grafana-servers van de werkruimte verdeeld over meerdere beschikbaarheidszones. Microsoft de zones selecteert die door uw werkruimte worden gebruikt. Andere resources, zoals de load balancer van het netwerk, de database en de gedeelde gateway, zijn ook geconfigureerd voor het gebruik van meerdere beschikbaarheidszones.

Diagram dat toont een Azure Managed Grafana-werkruimte met twee exemplaren, elk in een afzonderlijke beschikbaarheidszone, en een zone-redundante load balancer.

Architectuurdiagram met een Azure Managed Grafana werkruimte die is geïmplementeerd in drie beschikbaarheidszones. Een load balancer routeert verkeer naar Grafana-servers in zone 1 en 2 en een gedeelde database die alle zones omvat.

Als u zoneredundantie niet inschakelt, is de werkruimte niet-zonegebonden of regionaal, wat betekent dat de servers en andere onderdelen mogelijk in een beschikbaarheidszone binnen de regio of binnen dezelfde zone worden geplaatst. Als er een beschikbaarheidszone in de regio een probleem heeft, kan uw werkruimte downtime ondervinden.

Requirements

Regioondersteuning: Ondersteuning voor zoneredundantie is beschikbaar in de volgende regio's.

Americas Europa Azië en Stille Oceaan
East US Europa - noord Australia East
Zuid-Centraal Verenigde Staten Oost-Azië
Westelijke VS 3

Kosten

Zoneredundantie voegt extra kosten toe. Zie Azure Managed Grafana prijzen voor meer informatie.

Ondersteuning voor beschikbaarheidszones configureren

  • Maak een nieuwe werkruimte met beschikbaarheidszones ingeschakeld: Zoneredundantie inschakelen tijdens het maken van de werkruimte via de Azure-portal, de Azure CLI, Bicep of Azure Resource Manager-sjablonen (ARM-sjablonen).

    Zie Ontbare zoneredundantie in Azure Managed Grafana voor meer informatie.

  • Zoneredundantie configureren voor een bestaande werkruimte: U kunt zoneredundantie niet in- of uitschakelen voor een bestaande werkruimte. In plaats daarvan moet u een nieuwe werkruimte maken die gebruikmaakt van de gewenste zoneredundantieconfiguratie, uw dashboards en configuratie migreren en vervolgens de bestaande werkruimte verwijderen.

Gedrag wanneer alle zones in orde zijn

In deze sectie wordt beschreven wat u kunt verwachten wanneer u een werkruimte configureert als zone-redundant en alle beschikbaarheidszones operationeel zijn.

  • Verkeersroutering tussen zones: De zone-redundante load balancer distribueert automatisch binnenkomende aanvragen over de Grafana-servers. Beide servers kunnen verkeer verwerken.

  • Gegevensreplicatie tussen zones: Wijzigingen in de gegevens van de werkruimte worden synchroon gerepliceerd in meerdere beschikbaarheidszones. Azure Database for PostgreSQL voert gegevensreplicatie uit. Zie Reliability in Azure Database for PostgreSQL voor meer informatie. Azure Managed Grafana implementeert geen extra aangepaste replicatielogica buiten wat het databaseplatform biedt.

Gedrag tijdens een zonefout

In deze sectie wordt beschreven wat u kunt verwachten wanneer u een werkruimte configureert als zone-redundant en er een storing is in een van de zones.

  • Detection en response: Het Azure-platform detecteert en reageert op een fout in een beschikbaarheidszone. U hoeft geen zonefailover te starten.
  • Notification: Microsoft informeert u niet automatisch wanneer een zone uitvalt. U kunt echter Azure Resource Health gebruiken om de status van een afzonderlijke resource te controleren en u kunt Resource Health-waarschuwingen instellen om u op de hoogte te stellen van problemen. U kunt ook Azure Service Health gebruiken om inzicht te hebben in de algehele status van de service, inclusief eventuele zonefouten, en u kunt Servicestatuswaarschuwingen instellen om u op de hoogte te stellen van problemen.
  • Verwachte gegevensverlies: Er wordt geen gegevensverlies verwacht tijdens een storing in de beschikbaarheidszone.

  • Verwachte downtime: Uw werkruimte kan een kleine hoeveelheid downtime ervaren, meestal beperkt tot een paar seconden, terwijl verkeer wordt omgeleid naar goede servers. Zorg ervoor dat clienttoepassingen tijdelijke fouten op de juiste wijze kunnen afhandelen om de gevolgen van downtime te minimaliseren.

  • Verkeer omleiden: Binnenkomend verkeer wordt automatisch omgeleid naar de server in de gezonde zone. De service wordt uitgevoerd met verminderde capaciteit tijdens de zonestoring. Vervangingsservers worden tijdens de storing niet ingericht in zones die operationeel zijn.

Zoneherstel

Microsoft beheert zoneherstel automatisch, inclusief het herstellen van de servicecapaciteit wanneer de getroffen zone weer in orde is.

Testen op zonefouten

Het Azure platform beheert verkeersroutering, failover en failback voor zone-redundante werkruimten. Deze functie wordt volledig beheerd, dus u hoeft geen processen voor fouten in de beschikbaarheidszone te initiëren of valideren.

Tolerantie voor storingen in de hele regio

Azure Managed Grafana is een service met één regio. Als de regio niet beschikbaar is, is uw werkruimte ook niet beschikbaar.

Aangepaste oplossingen voor meerdere regio's voor veerkracht

Als u tolerantie wilt bereiken voor regionale storingen, kunt u meerdere Grafana-werkruimten in verschillende regio's implementeren. In dit type oplossing bent u verantwoordelijk voor:

  • Replicatie van dashboards en configuratie tussen regio's. U kunt bijvoorbeeld consistente configuratie toepassen op meerdere werkruimten met behulp van CI/CD en broncodebeheer.

  • Verkeersroutering en failover implementeren op toepassings- of clientniveau.

Backups en herstel

Azure Managed Grafana biedt geen ingebouwde back-up- of herstelfunctionaliteit voor dashboards of andere gegevensvlakentiteiten. Ter bescherming tegen onbedoelde verwijdering of beschadiging:

  • Gebruik de Grafana-API of CLI om dashboards en andere Grafana-configuraties te exporteren.

  • Geëxporteerde dashboards opslaan in een opslagplaats voor broncodebeheer, zoals GitHub.

  • Gebruik automatiserings- of CI/CD-pijplijnen om dashboards en andere Grafana-configuratie opnieuw te implementeren.

Voor de meeste oplossingen hoeft u niet uitsluitend te vertrouwen op back-ups. Gebruik in plaats daarvan de andere mogelijkheden die in deze handleiding worden beschreven om uw tolerantievereisten te ondersteunen. Back-ups beschermen echter tegen enkele risico's die andere benaderingen niet opleveren. Zie Wat zijn redundantie, replicatie en back-up? voor meer informatie.

Tolerantie voor serviceonderhoud

Microsoft past regelmatig service-updates toe en voert ander onderhoud uit. Het Azure platform verwerkt deze activiteiten automatisch en zorgt ervoor dat onderhoud naadloos en transparant voor u is. Tijdens onderhoudsbewerkingen kunt u korte onderbrekingen observeren. Deze onderbrekingen duren doorgaans een paar seconden. Zorg ervoor dat clienttoepassingen zijn geconfigureerd voor het afhandelen van tijdelijke fouten , zodat ze bestand zijn tegen korte onderbrekingen.

Diensteniveau-overeenkomst

De SLA (Service Level Agreement) voor Azure services beschrijft de verwachte beschikbaarheid van elke service en de voorwaarden waaraan uw oplossing moet voldoen om die beschikbaarheidsverwachting te bereiken. Zie SLAs voor onlineservices voor meer informatie.