Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.
Gegevenstypen
Zie PySpark-gegevenstypen voor een volledige lijst met PySpark-gegevenstypen.
Klassen
Dataframes
| Reference | Description |
|---|---|
| kolom | Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies. |
| DataFrame | Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database. |
| DataFrameNaFunctions | Functionaliteit voor het werken met ontbrekende gegevens in een DataFrame. |
| DataFrameReader | Interface die wordt gebruikt voor het laden van een DataFrame vanuit externe opslagsystemen. |
| DataFrameStatFunctions | Functionaliteit voor statistische functies met een DataFrame. |
| DataFrameWriter | Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslagsystemen. |
| DataFrameWriterV2 | Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslag (versie 2). |
| GroupedData | Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames. |
| Roeien | Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden. |
Aangepaste gegevensbronnen
| Reference | Description |
|---|---|
| DataSource | API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen. |
| DataSourceArrowWriter | Een basisklasse voor schrijvers van gegevensbronnen die gegevens verwerken met behulp van PyArrow RecordBatch. |
| DataSourceRegistration | Een wrapper voor registratie van gegevensbronnen. |
| DataSourceReader | Een basisklasse voor lezers van gegevensbronnen. |
| DataSourceStreamArrowWriter | Een basisklasse voor schrijvers van gegevensstromen die gegevens verwerken met behulp van PyArrow RecordBatch. |
| DataSourceStreamReader | Een basisklasse voor lezers van streaminggegevensbronnen. |
| DataSourceStreamWriter | Een basisklasse voor gegevensstroomschrijvers. |
| DataSourceWriter | Een basisklasse voor schrijvers van gegevensbronnen die verantwoordelijk zijn voor het opslaan van gegevens in een aangepaste gegevensbron in de batchmodus. |
| InputPartition | Een basisklasse die een invoerpartitie vertegenwoordigt die wordt geretourneerd door de partitions() methode van DataSourceReader. |
| SimpleDataSourceStreamReader | Een basisklasse voor vereenvoudigde streaminggegevensbronlezers die gegevens lezen en de meest recente offset tegelijk plannen. |
| WriterCommitMessage | Een doorvoerbericht geretourneerd door DataSourceWriter.write en teruggestuurd naar het stuurprogramma als invoerparameter van DataSourceWriter.commit of DataSourceWriter.abort. |
Gestructureerd streamen
| Reference | Description |
|---|---|
| DataStreamReader | Interface die wordt gebruikt voor het laden van een streaming DataFrame van externe opslagsystemen. |
| DataStreamWriter | Interface die wordt gebruikt voor het schrijven van een streaming DataFrame naar externe opslagsystemen. |
| Stateful Processor | Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming. |
| StreamingQuery | Een ingang naar een query die continu op de achtergrond wordt uitgevoerd wanneer nieuwe gegevens binnenkomen. |
| StreamingQueryListener | Abstracte klasse voor het luisteren naar gebeurtenissen voor de levenscyclus van streamingquery's. |
| StreamingQueryManager | Beheert alle actieve StreamingQuery exemplaren die zijn gekoppeld aan een SparkSession. |
Door de gebruiker gedefinieerde functies
| Reference | Description |
|---|---|
| UserDefinedFunction (UDF) | Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python logica op DataFrame-kolommen. |
| UDFRegistration | Wrapper voor door de gebruiker gedefinieerde functieregistratie. Dit exemplaar kan worden geopend door spark.udf. |
| UserDefinedTableFunction (UDTF) | Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij. |
| UDTFRegistration | Wrapper voor door de gebruiker gedefinieerde tabelfunctieregistratie. Dit exemplaar kan worden geopend door spark.udtf. |
Andere kernklassen
| Reference | Description |
|---|---|
| Catalogus | Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens. |
| Geografie | Een klasse die een geografiewaarde in Python vertegenwoordigt. |
| geometrie | Een klasse die een geometriewaarde in Python vertegenwoordigt. |
| Observatie | Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing. |
| PlotAccessor | Accessor voor dataframe-plottingfunctionaliteit in PySpark. |
| ProtoBuf | Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling. |
| RuntimeConfig | Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen. Zie Configuratie-eigenschappen voor Spark instellen op Azure Databricks voor informatie over configuratie die alleen beschikbaar is in Databricks. |
| SparkSession- | Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen. |
| VariantVal | Vertegenwoordigt semi-gestructureerde gegevens met een flexibel schema, dat dynamische typen en geneste structuren ondersteunt. |
| Venster | Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij. |
| WindowSpec | Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij. |
Functies
Zie PySpark-functies voor een volledige lijst met beschikbare ingebouwde functies.