Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.
Datatyper
En fullständig lista över PySpark-datatyper finns i PySpark-datatyper.
Klasserna
DataFrames
| Hänvisning | Description |
|---|---|
| Kolumn | Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck. |
| DataFrame | Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas. |
| DataFrameNaFunctions | Funktioner för att arbeta med data som saknas i en DataFrame. |
| DataFrameReader | Gränssnitt som används för att läsa in en DataFrame från externa lagringssystem. |
| DataFrameStatFunctions | Funktioner för statistiska funktioner med en DataFrame. |
| DataFrameWriter | Gränssnitt som används för att skriva en DataFrame till externa lagringssystem. |
| DataFrameWriterV2 | Gränssnitt som används för att skriva en DataFrame till extern lagring (version 2). |
| GroupedData | Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames. |
| Rad | Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden. |
Anpassade datakällor
| Hänvisning | Description |
|---|---|
| DataSource | API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor. |
| DataSourceArrowWriter | En basklass för datakällskrivare som bearbetar data med PyArrows RecordBatch. |
| DataSourceRegistration | En omslutning för registrering av datakällor. |
| DataSourceReader | En basklass för datakällans läsare. |
| DataSourceStreamArrowWriter | En basklass för dataströmsskrivare som bearbetar data med PyArrows RecordBatch. |
| DataSourceStreamReader | En basklass för läsare av strömmande datakällor. |
| DataSourceStreamWriter | En basklass för dataströmsskrivare. |
| DataSourceWriter | En basklass för datakällaförfattare som ansvarar för att spara data till en anpassad datakälla i batchläge. |
| InputPartition | En basklass som representerar en indatapartition som returneras av partitions() metoden DataSourceReader. |
| SimpleDataSourceStreamReader | En basklass för förenklade läsare av strömmande datakällor som läser data och planerar den senaste förskjutningen samtidigt. |
| WriterCommitMessage | Ett incheckningsmeddelande som returneras av DataSourceWriter.write och skickas tillbaka till drivrutinen som en indataparameter för DataSourceWriter.commit eller DataSourceWriter.abort. |
Strukturerad direktuppspelning
| Hänvisning | Description |
|---|---|
| DataStreamReader | Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem. |
| DataStreamWriter | Gränssnitt som används för att skriva en strömmande DataFrame till externa lagringssystem. |
| Tillståndskänslig processor | Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning. |
| StreamingQuery | Ett handtag till en fråga som körs kontinuerligt i bakgrunden när nya data tas emot. |
| StreamingQueryListener | Abstrakt klass för att lyssna på strömning av frågelivscykelhändelser. |
| StreamingQueryManager | Hanterar alla aktiva StreamingQuery instanser som är associerade med en SparkSession. |
Användardefinierade funktioner
| Hänvisning | Description |
|---|---|
| UserDefinedFunction (UDF) | Användardefinierade funktioner för att tillämpa anpassad Python logik på DataFrame-kolumner. |
| UDF-registrering | Omslutning för användardefinierad funktionsregistrering. Den här instansen kan nås av spark.udf. |
| UserDefinedTableFunction (UDTF) | Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad. |
| UDTFRegistration | Wrapper för användardefinierad tabellfunktionsregistrering. Den här instansen kan nås av spark.udtf. |
Andra kärnklasser
| Hänvisning | Description |
|---|---|
| Katalog | Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata. |
| Geografi | En klass som representerar ett geografivärde i Python. |
| geometri | En klass som representerar ett geometrivärde i Python. |
| Observation | Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning. |
| PlotAccessor | Accessor för DataFrame-plottningsfunktioner i PySpark. |
| ProtoBuf | Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar. |
| RuntimeConfig | Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar. Information om konfiguration som endast är tillgänglig på Databricks finns i Set Spark-konfigurationsegenskaper på Azure Databricks. |
| SparkSession | Startpunkten för att läsa data och köra SQL-frågor i PySpark-program. |
| VariantVal | Representerar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer. |
| Fönster | Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden. |
| WindowSpec | Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden. |
Functions
En fullständig lista över tillgängliga inbyggda funktioner finns i PySpark-funktioner.