read (DataSourceStreamReader)

Genererar data för en viss partition och returnerar en iterator med tupplar eller rader.

Den här metoden anropas en gång per partition för att läsa data. Implementering av den här metoden krävs för streamläsare. Du kan initiera alla icke-serialiserbara resurser som krävs för att läsa data från datakällan i den här metoden.

Har lagts till i Databricks Runtime 15.2

Syntax

read(partition: InputPartition)

Parameters

Parameter Type Beskrivning
partition InputPartition Partitionen som ska läsas. Det måste vara ett av partitionsvärdena som returneras av partitions().

Retur

Iterator[Tuple] eller Iterator[RecordBatch]

En iterator med tupplar eller rader. Varje tupppel eller rad konverteras till en rad i den slutliga dataramen. Den kan också returnera en iterator av PyArrow-objekt RecordBatch om datakällan stöder det.

Notes

Den här metoden är statisk och tillståndslös. Få inte åtkomst till föränderliga klassmedlemmar eller behåll minnesinternt tillstånd mellan olika anrop av read().