Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Azure Managed Grafana tillhandahåller värdbaserade Grafana-arbetsytor för att skapa instrumentpaneler och visualiseringar. Microsoft hanterar all underliggande infrastruktur, inklusive uppdateringar av beräkning, nätverk, lagring och tjänster.
När du använder Azure är reliability ett delat ansvar. Microsoft tillhandahåller en rad funktioner som stöder återhämtning och återställning. Du ansvarar för att förstå hur dessa funktioner fungerar inom alla tjänster som du använder och välja de funktioner du behöver för att uppfylla dina affärsmål och drifttidsmål.
Den här artikeln beskriver hur du gör Azure Managed Grafana motståndskraftiga mot en mängd olika potentiella avbrott och problem, inklusive tillfälliga fel, avbrott i tillgänglighetszonen och regionstopp. Den beskriver också hur du kan säkerhetskopiera och återställa från andra typer av problem och visar viktig information om Azure Managed Grafana serviceavtal (SLA).
Rekommendationer för produktionsdistribution för tillförlitlighet
För att öka tillförlitligheten för produktionsdistributioner med hjälp av Azure Managed Grafana rekommenderar vi att du vidtar följande åtgärder:
Aktivera zonredundans när du skapar en arbetsyta för att ge motståndskraft mot fel i tillgänglighetszonen.
Store-instrumentpaneler och andra Grafana-resurser som kod, till exempel genom att exportera dem från Grafana API eller CLI och lagra dem på en lagringsplats för källkontroll som GitHub. Använd CI/CD-pipelines (kontinuerlig integrering och kontinuerlig leverans) för att implementera instrumentpaneler i Azure Managed Grafana. Den här metoden stöder återställningsscenarier. Det möjliggör också distribution till flera Grafana-instanser, inklusive instanser i olika Azure regioner om det behövs.
Översikt över tillförlitlighetsarkitektur
I det här avsnittet beskrivs några av de viktiga aspekterna av hur tjänsten fungerar som är mest relevant ur ett tillförlitlighetsperspektiv. I avsnittet beskrivs den logiska arkitekturen, som innehåller några av de resurser och funktioner som du distribuerar och använder. Den diskuterar också den fysiska arkitekturen, som innehåller information om hur tjänsten fungerar under täcket.
Logisk arkitektur
Den primära Azure resurs som du distribuerar är en arbetsyta. När du har distribuerat arbetsytan använder du Grafana-slutpunkten för att konfigurera och interagera med datakällor, instrumentpaneler, visualiseringar och andra Grafana-resurser.
Fysisk arkitektur
När du skapar en arbetsyta internt etablerar Azure-plattformen följande underliggande komponenter:
Grafana-servrar: Dedikerade virtuella datorer som kör Grafana-programmet. Som standard etableras två servrar för hög tillgänglighet och redundans. Microsoft hanterar servrarna fullständigt. Du ser dem inte i din prenumeration, du kan inte komma åt dem och du ansvarar inte för korrigering, skalning eller underhåll av dem.
Lastbalanserare: En nätverkslastbalanserare som distribuerar inkommande webbläsarbegäranden över Grafana-servrarna. Lastbalanseraren övervakar serverns hälsa och dirigerar automatiskt bort trafik från servrar som inte är felfria.
Backend database: En Azure Database for PostgreSQL databas som lagrar konfiguration av arbetsytor och andra beständiga data. Alla Grafana-servrar på arbetsytan delar den här databasen. Mer information om databasåterhämtning finns i Reliability i Azure Database for PostgreSQL.
Du ser eller hanterar inte dessa komponenter. Microsoft distribuerar och hanterar dem åt dig.
Lastbalanseraren spårar vilka Grafana-servrar som är tillgängliga. Om en server blir skadad i en konfiguration med dubbla servrar skickar lastbalanseraren alla begäranden till den återstående servern. Servern hämtar webbläsarsessionerna som den misslyckade servern tidigare hanterade, baserat på information i den delade databasen. Under tiden reparerar eller ersätter Azure Managed Grafana den felaktiga servern.
Arkitekturdiagram som visar en Azure Managed Grafana arbetsyta bakom en delad gateway. En lastbalanserare distribuerar trafik till två Grafana-servrar som ansluter till en delad databas.
Motståndskraft mot tillfälliga fel
Tillfälliga fel är kortvariga, intermittenta fel i komponenter. De förekommer ofta i en distribuerad miljö som molnet, och de är en normal del av åtgärderna. Tillfälliga fel korrigerar sig själva efter en kort tidsperiod. Det är viktigt att dina program kan hantera tillfälliga fel, vanligtvis genom att försöka igen.
Alla molnbaserade program bör följa vägledningen för Azure övergående felhantering när de kommunicerar med molnbaserade API:er, databaser och andra komponenter. Mer information finns i Rekommendationer för hantering av tillfälliga fel.
Du kan skapa klientprogram för att interagera med grafana-arbetsytan via Grafana-API:et. Se till att dessa program följer Azure återförsöksvägledning för misslyckade begäranden.
Motståndskraft mot fel i tillgänglighetszonen
Tillgänglighetszoner är fysiskt separata grupper av datacenter i en Azure region. När en zon misslyckas kan tjänsterna redundansväxla till en av de återstående zonerna.
Azure Managed Grafana arbetsytor stöder zonredundans i Azure regioner som stöds. När zonredundans är aktiverat distribueras arbetsytans Grafana-servrar över flera tillgänglighetszoner. Microsoft väljer de zoner som din arbetsyta använder. Andra resurser, till exempel nätverkslastbalanseraren, databasen och den delade gatewayen, är också konfigurerade för att använda flera tillgänglighetszoner.
Arkitekturdiagram som visar en Azure Managed Grafana arbetsyta som distribuerats i tre tillgänglighetszoner. En lastbalanserare dirigerar trafik till Grafana-servrar i zon 1 och 2 och en delad databas som sträcker sig över alla zoner.
Om du inte aktiverar zonredundans är arbetsytan icke-zonbaserad eller regional, vilket innebär att servrarna och andra komponenter kan placeras i valfri tillgänglighetszon inom regionen eller inom samma zon. Om någon tillgänglighetszon i regionen har problem kan din arbetsmiljö uppleva stilleståndstid.
Kravspecifikation
Regionstöd: Stöd för zonredundans är tillgängligt i följande regioner.
| Amerika | Europa | Asien och stillahavsområdet |
|---|---|---|
| East US | North Europe | Australia East |
| Södra centrala USA | Östasien | |
| Västra USA 3 |
Kostnad
Zonredundans tillför extra kostnad. Mer information finns i Azure Managed Grafana prisuppgifter.
Konfigurera stöd för tillgänglighetszoner
Skapa en ny arbetsyta med tillgänglighetszoner aktiverat: Aktivera zonredundans när arbetsytan skapas via Azure-portalen, Azure CLI, Bicep eller Azure Resource Manager mallar (ARM-mallar).
Mer information finns i Enable zone redundancy in Azure Managed Grafana.
Konfigurera zonredundans på en befintlig arbetsyta: Du kan inte aktivera eller inaktivera zonredundans på en befintlig arbetsyta. I stället måste du skapa en ny arbetsyta som använder önskad zonredundanskonfiguration, migrera dina instrumentpaneler och konfigurationer och sedan ta bort den befintliga arbetsytan.
Beteende när alla zoner är felfria
Det här avsnittet beskriver vad du kan förvänta dig när du konfigurerar en arbetsyta som zonredundant och alla tillgänglighetszoner är i drift.
Trafikroutning mellan zoner: Den zonredundanta lastbalanseraren distribuerar automatiskt inkommande begäranden över Grafana-servrarna. Båda servrarna kan bearbeta trafik.
Datareplikering mellan zoner: Ändringar av arbetsytans data replikeras synkront över flera tillgänglighetszoner. Azure Database for PostgreSQL utför datareplikering. Mer information finns i Reliability i Azure Database for PostgreSQL. Azure Managed Grafana implementerar inte extra anpassad replikeringslogik utöver vad databasplattformen tillhandahåller.
Beteende vid ett zonfel
Det här avsnittet beskriver vad du kan förvänta dig när du konfigurerar en arbetsyta som zonredundant och det uppstår ett avbrott i någon av zonerna.
- Upptäckt och reaktion: Azure-plattformen upptäcker och reagerar på ett problem i en tillgänglighetszon. Du behöver inte påbörja en zonöverväxling.
- Notification: Microsoft meddelar dig inte automatiskt när en zon är nere. Du kan dock använda Azure Resource Health för att övervaka hälsotillståndet för en enskild resurs, och du kan konfigurera Resource Health aviseringar för att meddela dig om problem. Du kan också använda Azure Service Health för att förstå tjänstens övergripande hälsotillstånd, inklusive eventuella zonfel, och du kan konfigurera Service Health-aviseringar för att meddela dig om problem.
Förväntad dataförlust: Ingen dataförlust förväntas under ett avbrott i tillgänglighetszonen.
Förväntad stilleståndstid: Din arbetsyta kan uppleva en liten mängd stilleståndstid, vanligtvis begränsad till några sekunder, medan trafiken omdirigeras till felfria servrar. Se till att klientprogram kan hantera tillfälliga fel på rätt sätt för att minimera effekterna av stilleståndstid.
Omdistribution av trafik: Inkommande trafik dirigeras automatiskt till servern i den felfria zonen. Tjänsten körs med minskad kapacitet under zonstoppet. Ersättningsservrar etableras inte i felfria zoner under driftstoppet.
Zonåterställning
Microsoft hanterar zonåterställning automatiskt, inklusive återställning av tjänstkapacitet när den berörda zonen blir felfri igen.
Test för zonfel
Azure-plattformen hanterar trafikroutning, redundans och återställning efter fel för zonredundanta arbetsytor. Den här funktionen är helt hanterad, så du behöver inte initiera eller verifiera felprocesser i tillgänglighetszonen.
Motståndskraft mot regionomfattande fel
Azure Managed Grafana är en tjänst för en region. Om regionen inte är tillgänglig är arbetsytan inte heller tillgänglig.
Anpassade lösningar för flera regioner för återhämtning
För att uppnå motståndskraft mot regionala avbrott kan du distribuera flera Grafana-arbetsytor i olika regioner. I den här typen av lösning ansvarar du för:
Replikering av instrumentpaneler och konfiguration mellan regioner. Du kan till exempel tillämpa konsekvent konfiguration på flera arbetsytor med hjälp av CI/CD och källkontroll.
Implementera trafikroutning och redundans på program- eller klientnivå.
Säkerhetskopiering och återställning
Azure Managed Grafana tillhandahåller inte inbyggda funktioner för säkerhetskopiering eller återställning för instrumentpaneler eller andra dataplansentiteter. Så här skyddar du mot oavsiktlig borttagning eller skada:
Använd Grafana API eller CLI för att exportera instrumentpaneler och annan Grafana-konfiguration.
Lagra exporterade instrumentpaneler på en lagringsplats för källkontroll, till exempel GitHub.
Använd automatiseringsverktyg eller CI/CD-pipelines för att återdistribuera instrumentpaneler och annan Grafana-konfiguration.
För de flesta lösningar bör du inte enbart förlita dig på säkerhetskopior. Använd i stället de andra funktionerna som beskrivs i den här guiden för att stödja dina återhämtningskrav. Säkerhetskopior skyddar dock mot vissa risker som andra metoder inte gör. Mer information finns i Vad är redundans, replikering och säkerhetskopiering?.
Motståndskraft mot serviceunderhåll
Microsoft tillämpar regelbundet tjänstuppdateringar och utför annat underhåll. Den Azure plattformen hanterar dessa aktiviteter automatiskt, vilket säkerställer att underhållet är sömlöst och transparent för dig. Under underhållsåtgärder kan du observera korta avbrott. Dessa avbrott varar vanligtvis några sekunder. Se till att klientprogram är konfigurerade för att hantera tillfälliga fel så att de är motståndskraftiga mot korta avbrott.
Serviceavtal
Serviceavtalet (SLA) för Azure tjänster beskriver den förväntade tillgängligheten för varje tjänst och de villkor som din lösning måste uppfylla för att uppnå den tillgänglighetsförväntningen. Mer information finns i SLAs for online služby.