Cheatsheet voor het plannen van productietaken

Dit artikel heeft als doel om duidelijke en diepgaande adviezen te geven voor de planning van de productie. Het gebruik van best practices kan helpen de kosten te verlagen, de prestaties te verbeteren en de beveiliging te verbeteren.

Best practice Invloed Documenten
Serverloze rekenkracht gebruiken voor taken Kosten: voor serverloze taken is geen clusterconfiguratie vereist. Azure Databricks beheert het inrichten en schalen automatisch.
Gebruik Lakeflow Jobs voor orkestratie waar mogelijk Cost: u hoeft geen externe hulpprogramma's te gebruiken om te organiseren als u alleen workloads op Azure Databricks indelen.
Service-principals gebruiken in plaats van gebruikersaccounts om productietaken uit te voeren Beveiliging: als taken eigendom zijn van afzonderlijke gebruikers, kunnen deze taken niet meer worden uitgevoerd wanneer deze gebruikers de organisatie verlaten.
Voor klassieke berekeningen: taakclusters gebruiken voor geautomatiseerde werkstromen Kosten: jobclusters worden gefactureerd tegen lagere tarieven dan interactieve clusters.
Voor klassiek berekenen: langlopende clusters opnieuw opstarten Beveiliging: start clusters opnieuw om te profiteren van patches en bugfixes voor de Databricks Runtime.
Voor klassiek berekenen: gebruik de nieuwste LTS-versie van Databricks Runtime Prestaties en kosten: Azure Databricks verbetert databricks Runtime altijd voor bruikbaarheid, prestaties en beveiliging.
Voor klassieke berekeningen: sla geen productiegegevens op in de DBFS-hoofdmap Beveiliging: wanneer gegevens worden opgeslagen in de DBFS-hoofdmap, hebben alle gebruikers er toegang toe.