lezen (DataSourceStreamReader)

Genereert gegevens voor een bepaalde partitie en retourneert een iterator van tuples of rijen.

Deze methode wordt eenmaal per partitie aangeroepen om de gegevens te lezen. Het implementeren van deze methode is vereist voor streamlezers. U kunt alle niet-serialiseerbare resources initialiseren die nodig zijn voor het lezen van gegevens uit de gegevensbron binnen deze methode.

Toegevoegd in Databricks Runtime 15.2

Syntaxis

read(partition: InputPartition)

Parameterwaarden

Kenmerk Typ Beschrijving
partition InputPartition De partitie die moet worden gelezen. Dit moet een van de partitiewaarden zijn die worden geretourneerd door partitions().

Retouren

Iterator[Tuple] of Iterator[RecordBatch]

Een iterator van tuples of rijen. Elke tuple of rij wordt geconverteerd naar een rij in het uiteindelijke DataFrame. Het kan ook een iterator van PyArrow-objecten RecordBatch retourneren als de gegevensbron deze ondersteunt.

Aantekeningen

Deze methode is statisch en staatloos. Geen toegang tot onveranderbare klasseleden of de status in het geheugen behouden tussen verschillende aanroepen van read().