read (DataSourceStreamReader)

Génère des données pour une partition donnée et retourne un itérateur de tuples ou de lignes.

Cette méthode est appelée une fois par partition pour lire les données. L’implémentation de cette méthode est requise pour les lecteurs de flux. Vous pouvez initialiser toutes les ressources non sérialisables requises pour lire des données à partir de la source de données au sein de cette méthode.

Ajouté dans Databricks Runtime 15.2

Syntaxe

read(partition: InputPartition)

Paramètres

Paramètre Type Description
partition InputPartition Partition à lire. Il doit s’agir de l’une des valeurs de partition retournées par partitions().

Retours

Iterator[Tuple] ou Iterator[RecordBatch]

Itérateur de tuples ou de lignes. Chaque tuple ou ligne est converti en ligne dans le DataFrame final. Il peut également retourner un itérateur d’objets PyArrow RecordBatch si la source de données la prend en charge.

Remarques

Cette méthode est statique et sans état. N’accédez pas aux membres de classe mutables ou conservez l’état en mémoire entre différents appels de read().