PySpark-referens

Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.

Datatyper

En fullständig lista över PySpark-datatyper finns i PySpark-datatyper.

Klasserna

DataFrames

Hänvisning	Description
Kolumn	Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck.
DataFrame	Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas.
DataFrameNaFunctions	Funktioner för att arbeta med data som saknas i en DataFrame.
DataFrameReader	Gränssnitt som används för att läsa in en DataFrame från externa lagringssystem.
DataFrameStatFunctions	Funktioner för statistiska funktioner med en DataFrame.
DataFrameWriter	Gränssnitt som används för att skriva en DataFrame till externa lagringssystem.
DataFrameWriterV2	Gränssnitt som används för att skriva en DataFrame till extern lagring (version 2).
GroupedData	Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames.
Rad	Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden.

Anpassade datakällor

Hänvisning	Description
DataSource	API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor.
DataSourceArrowWriter	En basklass för datakällskrivare som bearbetar data med PyArrows `RecordBatch`.
DataSourceRegistration	En omslutning för registrering av datakällor.
DataSourceReader	En basklass för datakällans läsare.
DataSourceStreamArrowWriter	En basklass för dataströmsskrivare som bearbetar data med PyArrows `RecordBatch`.
DataSourceStreamReader	En basklass för läsare av strömmande datakällor.
DataSourceStreamWriter	En basklass för dataströmsskrivare.
DataSourceWriter	En basklass för datakällaförfattare som ansvarar för att spara data till en anpassad datakälla i batchläge.
InputPartition	En basklass som representerar en indatapartition som returneras av `partitions()` metoden `DataSourceReader`.
SimpleDataSourceStreamReader	En basklass för förenklade läsare av strömmande datakällor som läser data och planerar den senaste förskjutningen samtidigt.
WriterCommitMessage	Ett incheckningsmeddelande som returneras av `DataSourceWriter.write` och skickas tillbaka till drivrutinen som en indataparameter för `DataSourceWriter.commit` eller `DataSourceWriter.abort`.

Strukturerad direktuppspelning

Hänvisning	Description
DataStreamReader	Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem.
DataStreamWriter	Gränssnitt som används för att skriva en strömmande DataFrame till externa lagringssystem.
Tillståndskänslig processor	Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning.
StreamingQuery	Ett handtag till en fråga som körs kontinuerligt i bakgrunden när nya data tas emot.
StreamingQueryListener	Abstrakt klass för att lyssna på strömning av frågelivscykelhändelser.
StreamingQueryManager	Hanterar alla aktiva `StreamingQuery` instanser som är associerade med en `SparkSession`.

Användardefinierade funktioner

Hänvisning	Description
UserDefinedFunction (UDF)	Användardefinierade funktioner för att tillämpa anpassad Python logik på DataFrame-kolumner.
UDF-registrering	Omslutning för användardefinierad funktionsregistrering. Den här instansen kan nås av `spark.udf`.
UserDefinedTableFunction (UDTF)	Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad.
UDTFRegistration	Wrapper för användardefinierad tabellfunktionsregistrering. Den här instansen kan nås av `spark.udtf`.

Andra kärnklasser

Hänvisning	Description
Katalog	Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata.
Geografi	En klass som representerar ett geografivärde i Python.
geometri	En klass som representerar ett geometrivärde i Python.
Observation	Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning.
PlotAccessor	Accessor för DataFrame-plottningsfunktioner i PySpark.
ProtoBuf	Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar.
RuntimeConfig	Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar. Information om konfiguration som endast är tillgänglig på Databricks finns i Set Spark-konfigurationsegenskaper på Azure Databricks.
SparkSession	Startpunkten för att läsa data och köra SQL-frågor i PySpark-program.
VariantVal	Representerar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer.
Fönster	Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.
WindowSpec	Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.

Functions

En fullständig lista över tillgängliga inbyggda funktioner finns i PySpark-funktioner.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-05-03