Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Business Intelligence-arbetsbelastningar har distinkta egenskaper som kräver specifika konfigurationsöverväganden för SQL-lager. Den här sidan innehåller vägledning om hur du analyserar dina KRAV på BI-arbetsbelastningar och konfigurerar SQL-lager för optimal prestanda, kostnadseffektivitet och tillförlitlighet.
Krav för arbetsbelastningsanalys och serviceavtal
Varje BI-arbetsbelastning är unik och kräver noggrann analys före konfigurationen. Tänk på följande frågor när du utvärderar dina krav:
- Migrering eller ny implementering: Migreras den här arbetsbelastningen från en annan plattform, eller är det en ny implementering? Migrerade arbetsbelastningar kan ha upprättat serviceavtal och prestandabaslinjer.
- Serviceavtal (SLA): Vilka är dina krav på svarstid, dataflöde och tillgänglighet? Dokumentera både tekniska serviceavtal och serviceavtal för företag.
- Åtkomstmönster: Hur interagerar användare med data? Genom att förstå vanliga frågemönster kan du anpassa lagerkonfigurationen till rätt storlek och optimera datalagret för den specifika arbetsbelastningen.
Vanliga BI-åtkomstmönster
BI-arbetsbelastningar delas vanligtvis in i två distinkta åtkomstmönsterkategorier som var och en kräver olika SQL-lagerkonfigurationer.
DirectQuery/LiveQuery-mönster
DirectQuery-mönster frågar efter data i realtid, vilket kräver svar med låg svarstid för interaktiv analys:
Karakteristika:
- Stort antal frågor
- Sökfrågor returnerar vanligtvis små resultatuppsättningar (mindre än 1 000 poster)
- Utförs vanligtvis under arbetstid
- Strikta krav på serviceavtal med låga svarstider
- Oförutsägbara frågemönster (instrumentpaneler, rapporter)
- Data som nås per fråga är vanligtvis mindre än 5 GB
- Kräver mycket skalbar beräkning för att hantera spikiga mönster
Prestandaförväntningar:
- Frågesvarstid: sekunder (vanligtvis mindre än 5 sekunder för interaktiva instrumentpaneler)
- Data färskhet: Uppdaterad, som återspeglar de senaste data
Arbetsbelastningsprofil:
- Frekventa toppar under kontorstid
- Oförutsägbara belastningsvariationer (användardrivna)
- Kan utökas till 24 x 7 för globala organisationer
Importera/extrahera mönster
Importmönster extraherar data för underordnade system och prioriterar dataflöde framför svarstid:
Karakteristika:
- Lågt antal frågor (schemalagda uppdateringar)
- Vanligtvis stora datamängder (mer än 1 000 000 poster)
- Schemaläggs vanligtvis utanför rusningstid
- Förutsägbara frågemönster (ofta detaljnivådrivna)
- Data som nås per fråga: upp till tiotals GB
Prestandaförväntningar:
- Frågesvarstid: minuter till timmar (batchorienterad)
- Data färskhet: Dagögonblicksbild eller föregående dag
Arbetsbelastningsprofil:
- Schemalagda, förutsägbara exekverings-fönster
- Kända arbetsbelastningsegenskaper och resurskrav
- Batchorienterad bearbetning
Frågemix i DirectQuery-arbetsbelastningar
När du använder DirectQuery-mönster med en star-schemadatamodell kan du förvänta dig följande frågedistribution:
- Dimensionsfrågor: Många små frågor genomsöker dimensionstabeller (kund, produkt, tid)
- Faktafrågor: Många stora förfrågningar genomsöker faktatabeller med sammanslagningar och aggregeringar.
- Extrahera frågor: Några enkla men långvariga frågor för stora dataextrakt
Den här varierande frågemixen kräver SQL-lager som effektivt kan hantera både små, frekventa frågor och stora analysfrågor samtidigt.
Strategi för flera lagerlokaler för arbetsbelastningsisolering
Databricks rekommenderar att du etablerar flera SQL-lager för att uppnå:
Rätt storlek och optimala kostnader
- Storleksanpassa varje lager på lämpligt sätt för sitt specifika arbetsbelastningsmönster
- Undvik överdimensionering genom att separera arbetsbelastningar med olika resurskrav
- Använda mindre lager för utveckling och testning, större för produktion
- Använd lagerskalbarhet för att hitta den perfekta balansen mellan prestanda och kostnad
Bättre övergripande prestanda
- Förhindra resurskonkurrering mellan DirectQuery- och Import/Extract-mönster
- Isolera interaktiva instrumentpaneler från batchuppdateringsåtgärder
- Aktivera oberoende skalning baserat på arbetsbelastningskrav
Korsladdning och kostnadsallokering
- Spåra användning och kostnader efter affärsenhet, projekt eller team
- Aktivera korrekta återbetalningsmodeller
- Förbättra kostnadssynlighet och ansvarstagande
Effektivare administration och hantering
- Tilldela ägarskaps- och hanteringsansvar per team eller projekt
- Tillämpa olika principer för automatisk stopp baserat på användningsmönster
- Konfigurera separata åtkomstkontroller och övervakning
Rekommenderade lagerkonfigurationer
För DirectQuery/LiveQuery-arbetsbelastningar
- Använda serverlösa SQL-lager för automatisk resurshantering
- Konfigurera aggressivt autostopp (15–30 minuter) för kostnadsoptimering
- Ange klusterstorlek baserat på frågekomplexitet och datavolym (börja med Medel, skala upp om det behövs)
- Ange minsta och högsta antal kluster baserat på den förväntade arbetsbelastningen
- Övervaka metrikvärdet Högsta köade frågor och anpassa det maximala antalet kluster i enlighet med detta
För import och extrahera data arbetsbelastning
- Använda Pro- eller klassiska SQL-lager för förutsägbara, schemalagda jobb
- Konfigurera längre automatiska stopptider (1–2 timmar) om flera jobb körs i följd
- Använd större klusterstorlekar (stora, X-stora) för komplexa sammansättningar
- Överväg fast schemaläggning för att anpassa till batchfönster
- Övervaka frågevaraktighet och justera storlek baserat på SLA-krav
Mer information om storleks- och skalningsbeteende för SQL-lager finns i SQL Warehouse-storlek, skalning och köbeteende.
En snabb referens till bästa praxis för BI-tjänster finns i BI-fuskark.