Compartilhar via


read (DataSourceStreamReader)

Gera dados para uma determinada partição e retorna um iterador de tuplas ou linhas.

Esse método é invocado uma vez por partição para ler os dados. A implementação desse método é necessária para leitores de fluxo. Você pode inicializar todos os recursos não serializáveis necessários para ler dados da fonte de dados dentro desse método.

Adicionado no Databricks Runtime 15.2

Sintaxe

read(partition: InputPartition)

Parâmetros

Parâmetro Tipo Descrição
partition InputPartition A partição a ser lida. Deve ser um dos valores de partição retornados por partitions().

Devoluções

Iterator[Tuple] ou Iterator[RecordBatch]

Um iterador de tuplas ou linhas. Cada tupla ou linha será convertida em uma linha no DataFrame final. Ele também pode retornar um iterador de objetos PyArrow RecordBatch se a fonte de dados der suporte a ele.

Observações

Esse método é estático e sem estado. Não acesse membros de classe mutáveis ou mantenha o estado na memória entre invocações diferentes de read().