Optimeringsrekommendationer för Azure Databricks

Azure Databricks ger många optimeringar som stöder en mängd olika arbetsbelastningar i lakehouse, allt från storskalig ETL-bearbetning till ad hoc-interaktiva frågor. Många av dessa optimeringar sker automatiskt. Du får deras fördelar helt enkelt genom att använda Azure Databricks. Dessutom kräver de flesta Databricks Runtime-funktioner Delta Lake, standardformatet som används för att skapa tabeller i Azure Databricks.

Azure Databricks konfigurerar standardvärden som optimerar de flesta arbetsbelastningar. Men i vissa fall förbättrar ändrade konfigurationsinställningar prestanda.

Prestandaförbättringar för Databricks Runtime

Kommentar

Använd den senaste Databricks Runtime för att utnyttja de senaste prestandaförbättringarna. Alla beteenden som dokumenteras här är aktiverade som standard i Databricks Runtime 10.4 LTS och senare.

Diskcache påskyndar upprepade läsningar från Parquet-datafiler genom att ladda data till diskvolymer som är anslutna till beräkningskluster.
Dynamisk filrensning förbättrar frågeprestanda genom att hoppa över kataloger som inte innehåller datafiler som matchar frågepredikat.
Low shuffle merge minskar antalet datafiler som skrivs om av operationer och minskar behovet av att köra MERGE på nytt efter sammanslagningar.
Apache Spark 3.0 introducerade anpassningsbar frågekörning, vilket ger bättre prestanda för många åtgärder.

Databricks-rekommendationer för förbättrad prestanda

Du kan clone tabeller på Azure Databricks för att göra djupa eller grunda kopior av källdatauppsättningar.
Den kostnadsbaserade optimeraren påskyndar frågeprestanda genom att använda tabellstatistik.
Du kan använda Spark SQL för att interagera med JSON-strängar utan att parsa strängar.
Funktioner med högre ordning ger inbyggda, optimerade prestanda för många åtgärder som inte har vanliga Spark-operatorer. Funktioner med högre ordning ger en prestandafördel jämfört med användardefinierade funktioner.
Azure Databricks innehåller ett antal inbyggda operatorer och särskild syntax för att arbeta med kompplexa datatyper, inklusive matriser, structs och JSON-strängar.
Du kan manuellt justera inställningarna för räckviddsanslutningar. Se Range join-optimering.

samtyckesbeteenden

Azure Databricks tillhandahåller en seriell skrivisoleringsgaranti som standard. Om du ändrar isoleringsnivån till seriell kan genomströmningen minskas för samtidiga åtgärder, men det kan vara nödvändigt när seriell läsbarhet krävs.
Azure Databricks har avvecklat bloomfilterindex. Använd förutsägande I/O eller flytande klustring i stället.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-11