Een Spark-cluster maken

Voltooid

U kunt een of meer clusters maken in uw Azure Databricks-werkruimte met behulp van de gebruikersinterface van de Azure Databricks-werkruimte.

Schermopname van de interface Cluster maken in de gebruikersinterface van de Azure Databricks-werkruimte.

Wanneer u het cluster maakt, kunt u configuratie-instellingen opgeven, waaronder:

  • Een naam voor het cluster.
  • Een toegangsmodus die bepaalt hoe gebruikers communiceren met het cluster:
    • Standaard: meerdere gebruikers kunnen het cluster gelijktijdig delen. Isolatie tussen gebruikerscode wordt automatisch afgedwongen. Geschikt voor gezamenlijke data engineering en gedeelde analyses.
    • Toegewezen: Het cluster wordt uitsluitend toegewezen aan één gebruiker of groep. Vereist voor workloads die gebruikmaken van RDD-API's, GPU-versnelling of R-taalondersteuning.
  • De clusterarchitectuur, die bepaalt hoe berekeningen worden gedistribueerd:
    • Meerdere knooppunten: één besturingsknooppunt plus een of meer werkknooppunten. Hiermee kunt u gedistribueerde verwerking en horizontaal schalen voor grote gegevenssets.
    • Enkel knooppunt: alleen stuurprogrammaknooppunt, zonder werkknooppunten. Geschikt voor kleine gegevenssets, lichtgewicht verkennings- of machine learning-frameworks zoals scikit-learn die niet over knooppunten worden gedistribueerd.
  • De versie van de Databricks Runtime die in het cluster moet worden gebruikt; waarmee de versie van Spark en afzonderlijke onderdelen, zoals Python, Scala en andere onderdelen, worden geïnstalleerd.
  • Het type virtuele machine (VM) dat wordt gebruikt voor de werkknooppunten in het cluster.
  • Het minimum- en maximum aantal werkknooppunten in het cluster.
  • Het type VM dat wordt gebruikt voor het stuurprogrammaknooppunt in het cluster.
  • Of het cluster ondersteuning biedt voor automatisch schalen om het formaat van het cluster dynamisch te wijzigen.
  • Hoe lang het cluster inactief kan blijven voordat het automatisch wordt afgesloten.

Hoe Azure clusterbronnen beheert

Wanneer u een Azure Databricks-werkruimte maakt, wordt een Databricks-apparaat geïmplementeerd als een Azure-resource in uw abonnement. Wanneer u een cluster in de werkruimte maakt, geeft u de typen en grootten op van de virtuele machines (VM's) die moeten worden gebruikt voor zowel het stuurprogramma als de werkrolknooppunten, en enkele andere configuratieopties, maar Azure Databricks beheert alle andere aspecten van het cluster.

Het Databricks-apparaat wordt in Azure geïmplementeerd als een beheerde resourcegroep binnen uw abonnement. Deze resourcegroep bevat de stuurprogramma- en werkrol-VM's voor uw clusters, samen met andere vereiste resources, waaronder een virtueel netwerk, een beveiligingsgroep en een opslagaccount. Alle metagegevens voor uw cluster, zoals geplande taken, worden opgeslagen in een Azure Database met geo-replicatie voor fouttolerantie.

Azure Databricks is onderverdeeld in twee hoofdvlakken: het besturingsvlak, dat bestaat uit back-endservices (bijvoorbeeld de webgebruikersinterface) die worden beheerd door Microsoft en het rekenvlak, waar uw gegevensworkloads worden uitgevoerd. Er zijn twee varianten van rekenkracht: klassieke berekening, die gebruikmaakt van uw eigen Azure-abonnement en virtueel netwerk (isolatie binnen uw abonnement) en serverloze rekenkracht, die wordt uitgevoerd in de beheerde omgeving van Databricks, maar nog steeds in dezelfde Azure-regio als uw werkruimte, met netwerk- en beveiligingscontroles om te isoleren tussen klanten. Elke werkruimte heeft een opslagaccount in uw abonnement met systeemgegevens (notebooks, logboeken, taakmetagegevens), het gedistribueerde bestandssysteem (DBFS) en catalogusassets (als u Unity Catalog hebt ingeschakeld), met extra besturingselementen voor netwerken, firewalling en toegang om beveiliging en de juiste isolatie te garanderen.

Diagram van Azure Databricks-architectuur.

Tip

Voor interactieve notebookontwikkeling en de meeste ETL-workloads kunt u serverloze berekeningen overwegen in plaats van klassieke rekenclusters. Serverloze berekening begint in 2-6 seconden, wordt volledig beheerd door Azure Databricks en wordt automatisch geschaald, zonder dat clusterconfiguratie is vereist. Zie Selecteren en configureren in Azure Databricks in Microsoft Learn voor een uitgebreidere vergelijking van rekenopties.

Notitie

U kunt uw cluster ook koppelen aan een groep niet-actieve knooppunten om de opstarttijd van het cluster te verminderen. Zie Pools in de documentatie van Azure Databricks voor meer informatie.