Skapa ett Spark-kluster
Du kan skapa ett eller flera kluster på din Azure Databricks-arbetsyta med hjälp av användargränssnittet för Azure Databricks-arbetsytan.
När du skapar klustret kan du ange konfigurationsinställningar, inklusive:
- Ett namn på klustret.
- Ett åtkomstläge som styr hur användare interagerar med klustret:
- Standard: Flera användare kan dela klustret samtidigt. Isolering mellan användarkod framtvingas automatiskt. Lämplig för samarbetsdatateknik och delad analys.
- Dedikerad: Klustret tilldelas exklusivt till en enskild användare eller grupp. Krävs för arbetsbelastningar som använder RDD-API:er, GPU-acceleration eller stöd för R-språk.
-
Klusterarkitekturen som avgör hur beräkningen distribueras:
- Flera noder: En drivrutinsnod plus en eller flera arbetsnoder. Möjliggör distribuerad bearbetning och horisontell skalning för stora datamängder.
- Enskild nod: Endast drivrutinsnod, utan arbetsnoder. Passar för små datauppsättningar, lätt utforskning eller maskininlärningsramverk som scikit-learn som inte distribueras mellan noder.
- Den version av Databricks Runtime som ska användas i klustret. som avgör vilken version av Spark och enskilda komponenter som Python, Scala och andra som installeras.
- Den typ av virtuell dator (VM) som används för arbetsnoderna i klustret.
- Det minsta och högsta antalet arbetsnoder i klustret.
- Den typ av virtuell dator som används för drivrutinsnoden i klustret.
- Om klustret stöder autoskalning för att dynamiskt ändra storlek på klustret.
- Hur länge klustret kan vara inaktivt innan det stängs av automatiskt.
Så hanterar Azure klusterresurser
När du skapar en Azure Databricks-arbetsyta distribueras en Databricks-installation som en Azure-resurs i din prenumeration. När du skapar ett kluster på arbetsytan anger du de typer och storlekar på de virtuella datorer som ska användas för både drivrutins- och arbetsnoderna och några andra konfigurationsalternativ, men Azure Databricks hanterar alla andra aspekter av klustret.
Databricks-installationen distribueras till Azure som en hanterad resursgrupp i din prenumeration. Den här resursgruppen innehåller drivrutinen och de virtuella arbetsdatorerna för dina kluster, tillsammans med andra nödvändiga resurser, inklusive ett virtuellt nätverk, en säkerhetsgrupp och ett lagringskonto. Alla metadata för klustret, till exempel schemalagda jobb, lagras i en Azure Database med geo-replikering för feltolerans.
Azure Databricks är uppdelat i två huvudplan: kontrollplanet, som består av serverdelstjänster (till exempel webbgränssnittet) som hanteras av Microsoft och beräkningsplanet, där dina dataarbetsbelastningar körs. Det finns två varianter av beräkning: klassisk beräkning, som använder din egen Azure-prenumeration och ditt virtuella nätverk (erbjuder isolering i prenumerationen) och serverlös beräkning, som körs i Databricks hanterade miljö men fortfarande i samma Azure-region som din arbetsyta, med nätverks- och säkerhetskontroller för att isolera mellan kunder. Varje arbetsyta har ett lagringskonto i din prenumeration som innehåller systemdata (notebook-filer, loggar, jobbmetadata), det distribuerade filsystemet (DBFS) och katalogtillgångar (om du har Unity Catalog aktiverat), med ytterligare kontroller för nätverk, brandvägg och åtkomst för att säkerställa säkerhet och korrekt isolering.
Tip
För interaktiv utveckling av notebook-filer och de flesta ETL-arbetsbelastningar bör du överväga serverlös beräkning i stället för klassiska beräkningskluster. Serverlös beräkning startar om 2–6 sekunder, hanteras helt av Azure Databricks och skalas automatiskt – utan att klusterkonfiguration krävs. En djupare jämförelse av beräkningsalternativ finns i Välj och konfigurera beräkning i Azure Databricks i Microsoft Learn.
Anmärkning
Du kan också koppla klustret till en pool med inaktiva noder för att minska starttiden för klustret. Mer information finns i Pooler i Azure Databricks-dokumentationen.