Referentie voor PySpark

Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.

Gegevenstypen

Zie PySpark-gegevenstypen voor een volledige lijst met PySpark-gegevenstypen.

Klassen

Dataframes

Reference	Description
kolom	Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies.
DataFrame	Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database.
DataFrameNaFunctions	Functionaliteit voor het werken met ontbrekende gegevens in een DataFrame.
DataFrameReader	Interface die wordt gebruikt voor het laden van een DataFrame vanuit externe opslagsystemen.
DataFrameStatFunctions	Functionaliteit voor statistische functies met een DataFrame.
DataFrameWriter	Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslagsystemen.
DataFrameWriterV2	Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslag (versie 2).
GroupedData	Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames.
Roeien	Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden.

Aangepaste gegevensbronnen

Reference	Description
DataSource	API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen.
DataSourceArrowWriter	Een basisklasse voor schrijvers van gegevensbronnen die gegevens verwerken met behulp van PyArrow `RecordBatch`.
DataSourceRegistration	Een wrapper voor registratie van gegevensbronnen.
DataSourceReader	Een basisklasse voor lezers van gegevensbronnen.
DataSourceStreamArrowWriter	Een basisklasse voor schrijvers van gegevensstromen die gegevens verwerken met behulp van PyArrow `RecordBatch`.
DataSourceStreamReader	Een basisklasse voor lezers van streaminggegevensbronnen.
DataSourceStreamWriter	Een basisklasse voor gegevensstroomschrijvers.
DataSourceWriter	Een basisklasse voor schrijvers van gegevensbronnen die verantwoordelijk zijn voor het opslaan van gegevens in een aangepaste gegevensbron in de batchmodus.
InputPartition	Een basisklasse die een invoerpartitie vertegenwoordigt die wordt geretourneerd door de `partitions()` methode van `DataSourceReader`.
SimpleDataSourceStreamReader	Een basisklasse voor vereenvoudigde streaminggegevensbronlezers die gegevens lezen en de meest recente offset tegelijk plannen.
WriterCommitMessage	Een doorvoerbericht geretourneerd door `DataSourceWriter.write` en teruggestuurd naar het stuurprogramma als invoerparameter van `DataSourceWriter.commit` of `DataSourceWriter.abort`.

Gestructureerd streamen

Reference	Description
DataStreamReader	Interface die wordt gebruikt voor het laden van een streaming DataFrame van externe opslagsystemen.
DataStreamWriter	Interface die wordt gebruikt voor het schrijven van een streaming DataFrame naar externe opslagsystemen.
Stateful Processor	Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming.
StreamingQuery	Een ingang naar een query die continu op de achtergrond wordt uitgevoerd wanneer nieuwe gegevens binnenkomen.
StreamingQueryListener	Abstracte klasse voor het luisteren naar gebeurtenissen voor de levenscyclus van streamingquery's.
StreamingQueryManager	Beheert alle actieve `StreamingQuery` exemplaren die zijn gekoppeld aan een `SparkSession`.

Door de gebruiker gedefinieerde functies

Reference	Description
UserDefinedFunction (UDF)	Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python logica op DataFrame-kolommen.
UDFRegistration	Wrapper voor door de gebruiker gedefinieerde functieregistratie. Dit exemplaar kan worden geopend door `spark.udf`.
UserDefinedTableFunction (UDTF)	Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij.
UDTFRegistration	Wrapper voor door de gebruiker gedefinieerde tabelfunctieregistratie. Dit exemplaar kan worden geopend door `spark.udtf`.

Andere kernklassen

Reference	Description
Catalogus	Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens.
Geografie	Een klasse die een geografiewaarde in Python vertegenwoordigt.
geometrie	Een klasse die een geometriewaarde in Python vertegenwoordigt.
Observatie	Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing.
PlotAccessor	Accessor voor dataframe-plottingfunctionaliteit in PySpark.
ProtoBuf	Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling.
RuntimeConfig	Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen. Zie Configuratie-eigenschappen voor Spark instellen op Azure Databricks voor informatie over configuratie die alleen beschikbaar is in Databricks.
SparkSession-	Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen.
VariantVal	Vertegenwoordigt semi-gestructureerde gegevens met een flexibel schema, dat dynamische typen en geneste structuren ondersteunt.
Venster	Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij.
WindowSpec	Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij.

Functies

Zie PySpark-functies voor een volledige lijst met beschikbare ingebouwde functies.

Feedback

Is deze pagina nuttig?

Last updated on 2026-05-03