Tillförlitlighet i Azure Key Vault Managed HSM

Azure Key Vault Managed HSM är en fullständigt hanterad, högtillgänglig molntjänst med enkel klientorganisation som är standardkompatibel och som gör att du kan skydda kryptografiska nycklar för dina molnprogram med hjälp av FIPS 140-3 Level 3-verifierade maskinvarusäkerhetsmoduler (HSM). Managed HSM tillhandahåller en rad inbyggda tillförlitlighetsfunktioner som hjälper dig att säkerställa att dina nycklar förblir tillgängliga.

När du använder Azure är tillförlitlighet ett delat ansvar. Microsoft tillhandahåller en rad funktioner för att stödja återhämtning och återställning. Du ansvarar för att förstå hur dessa funktioner fungerar inom alla tjänster som du använder och välja de funktioner du behöver för att uppfylla dina affärsmål och drifttidsmål.

Den här artikeln beskriver hur Managed HSM är motståndskraftigt mot en mängd olika potentiella avbrott och problem, inklusive tillfälliga fel, maskinvarufel och regionstopp. Den beskriver också hur du kan använda säkerhetskopior och säkerhetsdomänen för att återställa från andra typer av problem, återställningsfunktioner för att förhindra oavsiktlig borttagning och visar viktig information om serviceavtalet för hanterad HSM (SLA).

Rekommendationer för produktionsdistribution för tillförlitlighet

För produktionsarbetsbelastningar rekommenderar vi att du:

Översikt över tillförlitlighetsarkitektur

När du använder Managed HSM distribuerar du en instans, som ibland även kallas för en pool.

Hanterad HSM är utformad för hög tillgänglighet och hållbarhet genom sin arkitektur:

  • Enkel hyresgästisolering: Varje hanterad HSM-instans är dedikerad till en enskild kund och består av ett kluster med flera HSM-partitioner som är kryptografiskt isolerade.

  • Trippelredundanta partitioner: En hanterad HSM-pool består av tre belastningsbalanserade HSM-partitioner fördelade på separata rack i ett datacenter. Den här distributionen ger redundans mot maskinvarufel och säkerställer att förlusten av en enskild komponent (till exempel ett racks strömförsörjning eller nätverksväxel) inte påverkar alla partitioner.

  • Konfidentiell databehandling: Varje tjänstinstans körs i en betrodd körningsmiljö (TEE) som använder Intel SGX-enklaver. Microsofts personal, inklusive de som har fysisk åtkomst till servrarna, kan inte komma åt ditt kryptografiska nyckelmaterial.

  • Automatisk återställning: Om ett maskinvarufel eller något annat problem påverkar någon av de tre partitionerna återskapar tjänsten automatiskt den berörda partitionen på felfri maskinvara utan någon kundintervention och utan att exponera hemligheter.

Mer information om hur Managed HSM implementerar dessa funktioner finns i Nyckelsuveränitet, tillgänglighet, prestanda och skalbarhet i Hanterad HSM.

Säkerhetsdomän

Säkerhetsdomänen är en viktig komponent för haveriberedskap. Det är en krypterad blob som innehåller alla autentiseringsuppgifter som behövs för att återskapa en Hanterad HSM-instans från grunden, inklusive partitionens ägarnyckel, partitionens autentiseringsuppgifter, dataomslutningsnyckeln och en första säkerhetskopia av HSM.

Important

Utan säkerhetsdomänen är haveriberedskap inte möjligt. Microsoft har inget sätt att återställa säkerhetsdomänen och kan inte komma åt dina nycklar utan den.

Säkerhetsdomäner är en viktig del av säkerheten och tillförlitligheten i din hanterade HSM. Vi rekommenderar att du följer dessa metodtips:

  • Generera nycklar på ett säkert sätt: För produktionsmiljöer genererar du RSA-nyckelparen som skyddar säkerhetsdomänen i en luftgapad miljö (till exempel en lokal HSM eller en isolerad arbetsstation).
  • Lagra offline: Lagra säkerhetsdomännycklar på krypterade USB-enheter eller annan offlinelagring med varje nyckelresurs på en separat enhet på separata geografiska platser.
  • Upprätta ett kvorum för flera personer: Använd minst tre nyckelinnehavare för att förhindra att en enskild person har åtkomst till alla kvorumnycklar och för att undvika ett beroende av en enskild person.

Mer information finns i Säkerhetsdomän i Översikt över hanterad HSM.

Motståndskraft mot tillfälliga fel

Tillfälliga fel är kortvariga, intermittenta fel i komponenter. De förekommer ofta i en distribuerad miljö som molnet, och de är en normal del av åtgärderna. Tillfälliga fel korrigerar sig själva efter en kort tidsperiod. Det är viktigt att dina program kan hantera tillfälliga fel, vanligtvis genom att försöka igen.

Alla molnbaserade program bör följa vägledningen för tillfälliga felhantering i Azure när de kommunicerar med molnbaserade API:er, databaser och andra komponenter. Mer information finns i Rekommendationer för hantering av tillfälliga fel.

När du använder Azure-tjänster som integreras med Managed HSM hanterar dessa tjänster tillfälliga fel automatiskt.

Om du skapar anpassade program som integreras med Managed HSM bör du överväga följande metodtips för att hantera tillfälliga fel som kan inträffa:

  • Använd Microsoft-tillhandahållna SDK:er för Azure Key Vault, som innehåller inbyggda mekanismer för återförsök. SDK:er är tillgängliga för .NET, Python och JavaScript.

  • Implementera logik för återförsök när de interagerar direkt med Managed HSM, inklusive exponentiell backoff-policy för återförsök.

  • Minska antalet direkta beroenden på hanterad HSM. Cachelagra resultat av kryptografiska operationer när det är möjligt för att minska direkta begäranden till "Managed HSM". För offentliga nyckelåtgärder, till exempel kryptering, omslutning och verifiering, utför du dessa åtgärder lokalt genom att cachelagra det offentliga nyckelmaterialet. Att utföra åtgärderna lokalt minskar beroendet av din hanterade HSM och undviker tillfälliga fel från att avbryta dessa åtgärder.

Om du använder Managed HSM i scenarier med högt dataflöde bör du tänka på att Hanterad HSM inte begränsar kryptografiska åtgärder. Den använder sin HSM-maskinvara till full kapacitet. Varje Hanterad HSM-instans har tre partitioner. Under underhåll eller återställning kan en partition vara otillgänglig. Anta att två partitioner är tillgängliga för kapacitetsplanering. Om du behöver garanterat dataflöde planerar du baserat på att en partition är tillgänglig. Övervaka måttet För hanterad HSM-tillgänglighet för att förstå tjänstens hälsotillstånd.

För att skala krypteringen av stora mängder data använder du en nyckelhierarki där endast nyckelkrypteringsnyckeln (KEK) lagras i Managed HSM och används för att omsluta nycklar på lägre nivå som lagras på en annan säker lagringsplats för nycklar.

Detaljerade prestandamått och vägledning för kapacitetsplanering finns i Azure Managed HSM-skalningsvägledning.

Motståndskraft mot partitionsfel

Hanterad HSM uppnår hög tillgänglighet via sin trippelredundanta arkitektur, där varje HSM-pool består av tre HSM-partitioner fördelade på separata serverrack i ett datacenter. Den här racknivådistributionen ger redundans mot lokaliserade maskinvarufel.

Diagram som visar en hanterad HSM-pools tre partitioner, var och en på en separat fysisk server och i ett annat serverrack.

Diagram som visar en hanterad HSM-pools tre partitioner, var och en på en separat fysisk server och i ett annat serverrack.

När maskinvarufel eller lokaliserade avbrott inträffar omdirigerar Managed HSM automatiskt dina begäranden till felfria partitioner och återskapar berörda partitioner genom en process som kallas för konfidentiell tjänståterställning. Misslyckade partitioner återskapas automatiskt på felfri maskinvara med hjälp av attesterade TLS- och Intel SGX-enklaver för att skydda hemligheter under återställningen.

Cost

Det finns inga extra kostnader kopplade till den inbyggda höga tillgängligheten i Managed HSM. Prissättningen baseras på antalet HSM-pooler och antalet åtgärder som utförs. Mer information finns i Azure Managed HSM pricing.

Beteende när alla partitioner är felfria

I det här avsnittet beskrivs vad du kan förvänta dig när hanterade HSM-pooler används och inga partitioner är otillgängliga.

  • Trafikroutning: Hanterad HSM hanterar automatiskt trafikdirigering över sina tre partitioner. Under normala åtgärder distribueras begäranden över partitioner transparent.

  • Datareplikering: Alla data, inklusive nycklar, rolltilldelningar och principer för åtkomstkontroll, replikeras synkront över alla tre partitionerna. Detta säkerställer konsekvens och tillgänglighet även om en partition blir otillgänglig.

Beteende vid ett partitionsfel

I det här avsnittet beskrivs vad du kan förvänta dig när en eller flera partitioner blir otillgängliga.

  • Identifiering och svar: Den hanterade HSM-tjänsten ansvarar för att identifiera partitionsfel och automatiskt svara på dem. Du behöver inte vidta några åtgärder under ett partitionsfel.

  • Aktiva begäranden: Under ett partitionsfel kan begäranden under flygning till den berörda partitionen misslyckas och kräva att klientprogram försöker igen. För att minimera effekterna av partitionsfel bör klientprogram följa tillfälliga metoder för felhantering.

  • Förväntad dataförlust: Ingen dataförlust förväntas under ett partitionsfel på grund av synkron replikering mellan partitioner.

  • Förväntad stilleståndstid: För läsåtgärder och de flesta kryptografiska åtgärder bör det finnas minimal eller ingen stilleståndstid under ett partitionsfel. De återstående hälsosamma partitionerna fortsätter att hantera förfrågningar.

  • Trafikomroutning: Hanterad HSM omdirigerar automatiskt trafik från den berörda partitionen till felfria partitioner utan att kunden behöver göra något.

Partitionsåterställning

När den berörda partitionen återställs, återställer Managed HSM automatiskt drift genom sekretessbelagd tjänståterställning. Den här processen:

  1. Skapar en ny tjänstinstans på felfri maskinvara.
  2. Upprättar en attesterad TLS-anslutning med den primära partitionen.
  3. Utbyter autentiseringsuppgifter och kryptografiskt material på ett säkert sätt.
  4. Förseglar servicedata på den nya processorn.

Azure-plattformen hanterar den här processen fullständigt och kräver inga kundinterventioner.

Motståndskraft mot fel i tillgänglighetszonen

Hanterad HSM:s höga tillgänglighet baseras på distribution på racknivå i ett datacenter, inte explicit distribution av tillgänglighetszoner. Varje partition körs på en separat server i ett annat rack, vilket skyddar mot fel på racknivå, till exempel strömförsörjning eller problem med nätverksväxlar.

Om du behöver vara motståndskraftig mot avbrott i hela datacentret eller tillgänglighetszonen kan du överväga att använda någon av metoderna för motståndskraft mot regionomfattande fel.

Motståndskraft mot regionomfattande fel

Hanterade HSM-resurser distribueras till en enda Azure-region. Om regionen blir otillgänglig är din hanterade HSM inte heller tillgänglig. Det finns dock metoder som du kan använda för att säkerställa motståndskraft mot regionstopp.

Replikering i flera regioner

Hanterad HSM stöder valfri replikering i flera regioner, vilket gör att du kan utöka en hanterad HSM-pool från en Azure-region (den primära regionen) till en andra Azure-region (den utökade regionen). När du har konfigurerat:

  • Båda regionerna är aktiva och kan hantera begäranden.
  • Nyckelmaterial, roller och behörigheter replikeras automatiskt mellan regioner.
  • Begäranden dirigeras till den närmaste tillgängliga regionen med Hjälp av Azure Traffic Manager.
  • Det kombinerade SLA ökar.

Kravspecifikation

  • Regionstöd: Alla Azure Managed HSM-regioner stöds som primära regioner. Det finns inget beroende av azure-regionparkopplingar.

    Hanterad HSM stöder inte alla regioner som utökade regioner. Mer information finns i Stöd för Azure-regioner.

  • Maximalt antal regioner: Du kan lägga till en utökad region, för högst två regioner totalt.

Cost

Replikering i flera regioner medför extra fakturering eftersom en andra HSM-pool används i den utökade regionen. Mer information finns i Azure Managed HSM pricing.

Konfigurera replikering i flera regioner

Beteende när alla regioner är felfria

När replikering i flera regioner är aktiverad och båda regionerna är i drift:

  • Trafikroutning: Alla regioner kan hantera begäranden. Azure Traffic Manager dirigerar begäranden till regionen med närmaste geografiska närhet eller lägsta svarstid.

    Om du använder Private Link konfigurerar du privata slutpunkter i båda regionerna för optimal routning under redundansväxling. Mer information finns i Beteende för privat länk med replikering i flera regioner.

  • Datareplikering: Alla ändringar av nycklar, rolldefinitioner och rolltilldelningar replikeras asynkront till den utökade regionen inom sex minuter. Vänta sex minuter efter att du har skapat eller uppdaterat en nyckel innan du använder den i den utökade regionen.

Beteende under ett regionfel

När replikering i flera regioner är aktiverad och en region upplever ett avbrott:

  • Identifiering och svar: Azure Traffic Manager identifierar den felaktiga regionen och dirigerar framtida begäranden till den felfria regionen. DNS-poster har en TTL på fem sekunder, men klienter som cachelagrar DNS-sökningar kan uppleva något längre övergångstider.
  • Anmälan: Microsoft meddelar dig inte automatiskt när en region är nere. Du kan dock använda Azure Service Health för att förstå tjänstens övergripande hälsotillstånd, inklusive eventuella regionfel, och du kan konfigurera Service Health-aviseringar för att meddela dig om problem.
  • Aktiva begäranden: Begäranden under flygning till den berörda regionen kan misslyckas och kräver återförsök.

  • Förväntad dataförlust: Det kan uppstå dataförlust för ändringar som görs inom sex minuter före regionfelet om dessa ändringar inte har slutfört replikeringen.

  • Förväntad stilleståndstid: Både läs- och skrivåtgärder är fortfarande tillgängliga i den felfria regionen under en failover.

    Klientprogram som ligger nära den felaktiga regionen kan fortsätta att dirigeras till den regionen tills DNS-posterna uppdateras, men den här uppdateringen sker inom cirka fem sekunder. För att minimera redundanstiden bör klienter undvika att cachelagra DNS-sökningar längre än DNS-postens TTL.

  • Omdirigering: Azure Traffic Manager omdirigerar automatiskt begäranden till den felfria regionen.

Regionåterställning

När den berörda regionen återställs återupptar Managed HSM automatiskt åtgärderna. Traffic Manager börjar dirigera begäranden till båda regionerna igen baserat på närhet.

Test för regionfel

Hanterad HSM hanterar helt trafikroutning, redundans och återställning efter fel i regionen, så du behöver inte verifiera regionfelprocesser eller ange ytterligare indata.

Anpassade lösningar för flera regioner för återhämtning

Om replikering i flera regioner inte är lämplig för dina behov kan du implementera manuell haverihantering. Detta kräver:

  • Säkerhetsdomänen för källans HSM.
  • De privata nycklar (åtminstone kvorumnumret) som krypterar säkerhetsdomänen.
  • En nyligen gjord fullständig HSM-säkerhetskopia från käll-HSM:et.

För att utföra katastrofåterställning:

  1. Skapa en ny Hanterad HSM-instans i en annan region.
  2. Aktivera återställningsläge för säkerhetsdomäner och ladda upp säkerhetsdomänen.
  3. Gör en säkerhetskopia av den nya HSM:n (krävs innan du återställer).
  4. Återställ säkerhetskopian från HSM-källan.

Important

Den nya HSM:n har ett annat namn och tjänstslutpunkts-URI. Du måste uppdatera programkonfigurationen för att använda den nya platsen.

Detaljerade haveriberedskapsprocedurer finns i Hanterad HSM-haveriberedskap.

Säkerhetskopiering och återställning

Hanterad HSM stöder fullständig säkerhetskopiering och återställning av alla nycklar, versioner, attribut, taggar och rolltilldelningar. Säkerhetskopior lagras i ett Azure Storage-konto. Om din region stöder det rekommenderar vi att du säkerhetskopierar din hanterade HSM till ett Azure Storage-konto som har geo-redundant lagring (GRS) aktiverat.

Säkerhetskopior krypteras med kryptografiska nycklar som är associerade med HSM:s säkerhetsdomän och kan bara återställas till en HSM med samma säkerhetsdomän.

Hanterad HSM stöder inte schemaläggning av säkerhetskopieringar, men du kan skapa en egen schemaläggare med hjälp av en tjänst som Azure Functions eller Azure Automation.

Medan en säkerhetskopia pågår kanske HSM inte fungerar med fullständigt dataflöde eftersom vissa partitioner är upptagna med att utföra säkerhetskopieringsåtgärden.

Detaljerade procedurer för säkerhetskopiering och återställning finns i Fullständig säkerhetskopiering och återställning.

Motståndskraft mot oavsiktlig borttagning

Hanterad HSM innehåller två viktiga återställningsfunktioner för att förhindra oavsiktlig eller skadlig borttagning:

  • Mjuk borttagning: När du tar bort en HSM eller en nyckel förblir den återställningsbar under en konfigurerbar kvarhållningsperiod (7 till 90 dagar, standard 90 dagar). Mjuk borttagning är alltid aktiverat och kan inte inaktiveras.

    Note

    Hanterade HSM-resurser med mjuk borttagning fortsätter att debiteras tills de rensas.

  • Rensningsskydd: När det är aktiverat förhindrar det permanent borttagning av din hanterade HSM och dess nycklar tills kvarhållningsperioden har löpt ut. Rensningsskydd kan inte inaktiveras eller åsidosättas av någon, inklusive Microsoft.

Vi rekommenderar starkt att du aktiverar rensningsskydd för produktionsmiljöer. Mer information finns i Hanterat HSM-skydd för mjuk borttagning och rensning.

Motståndskraft mot serviceunderhåll

Hanterad HSM hanterar tjänstunderhåll, inklusive uppdateringar av inbyggd programvara, korrigering och maskinvaruåterställning, utan kundintervention. Under underhåll:

  • Partitioner kan vara tillfälligt otillgängliga när uppdateringar tillämpas.
  • Minst två av tre partitioner är fortfarande tillgängliga under rutinunderhåll.
  • Klientprogrammen bör implementera omprövningslogik för att hantera korta avbrott.

Den konfidentiella tjänståterställningsprocessen säkerställer att hemligheter aldrig exponeras under underhållsåtgärder.

Serviceavtal

Serviceavtal (SLA) för Azure-tjänster beskriver den förväntade tillgängligheten för varje tjänst och de villkor som din lösning måste uppfylla för att uppnå den tillgänglighetsförväntningen. Mer information finns i Serviceavtal för onlinetjänster.

Managed HSM tillhandahåller ett standardavtal för distributioner med en region. När du aktiverar replikering i flera regioner ökar det kombinerade serviceavtalet för båda regionerna.