DataSourceStreamReader

ストリーミングデータソースリーダーの基本クラス。

データソースストリームリーダーは、ストリーミングデータソースからデータを出力する役割を担います。このクラスを実装し、データソースをストリーミングソースとして読み取り可能にするために、 DataSource.streamReader() からインスタンスを返します。

構文

from pyspark.sql.datasource import DataSourceStreamReader

class MyDataSourceStreamReader(DataSourceStreamReader):
    def initialOffset(self):
        ...

    def partitions(self, start, end):
        ...

    def read(self, partition):
        ...

メソッド

メソッド	説明
`initialOffset()`	ストリーミングデータソースの初期オフセットを `dict`として返します。新しいストリーミングクエリは、このオフセットからの読み取りを開始します。 JSON 形式または `dict` 形式のプリミティブ型のオフセットキーと値のペアを返す必要があります。実装されていない場合は `PySparkNotImplementedError` を発生させます。
`latestOffset(start, limit)`	開始オフセットと読み取り制限を指定して、 `dict`として使用できる最新のオフセットを返します。新しいデータがない場合、ソースは `start` と同じオフセットを返す場合があります。ソースは常に指定された `limit`を尊重する必要があります。 JSON 形式または `dict` 形式のプリミティブ型のオフセットキーと値のペアを返す必要があります。実装されていない場合は `PySparkNotImplementedError` を発生させます。
`partitions(start, end)`	`InputPartition`オフセットと`start` オフセットの間のデータを表す`end` オブジェクトのシーケンスを返します。 `start`が `end` と等しい場合は、空のシーケンスを返します。各 `InputPartition` は、1 つの Spark タスクで処理できるデータ分割を表します。
`read(partition)`	特定のパーティションのデータを生成し、タプル、行、または PyArrow `RecordBatch` オブジェクトの反復子を返します。各タプルまたは行は、最終的な DataFrame の行に変換されます。このメソッドは抽象メソッドであり、実装する必要があります。
`commit(end)`	`end`以下のオフセットのすべてのデータの処理が Spark によって完了したことをソースに通知します。 Spark は今後、 `end` より大きいオフセットのみを要求します。
`stop()`	ソースを停止し、割り当てられているすべてのリソースを解放します。ストリーミングクエリが終了したときに呼び出されます。

メモ

read() は静的でステートレスです。変更可能なクラスメンバーにアクセスしたり、 read()のさまざまな呼び出し間でメモリ内の状態を保持したりしないでください。
partitions()によって返されるすべてのパーティション値は、picklable オブジェクトである必要があります。
オフセットは、キーと値がプリミティブ型 (整数、文字列、またはブール型) である dict または再帰 dict として表されます。

例示

インデックス付きレコードのシーケンスから読み取るストリーミングリーダーを実装します。

from pyspark.sql.datasource import (
    DataSource,
    DataSourceStreamReader,
    InputPartition,
)

class MyDataSourceStreamReader(DataSourceStreamReader):
    def initialOffset(self):
        return {"index": 0}

    def latestOffset(self, start, limit):
        return {"index": start["index"] + 10}

    def partitions(self, start, end):
        return [
            InputPartition(i)
            for i in range(start["index"], end["index"])
        ]

    def read(self, partition):
        yield (partition.value, f"record-{partition.value}")

    def commit(self, end):
        print(f"Committed up to offset {end}")

    def stop(self):
        print("Stopping stream reader")

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-04

次の方法で共有

DataSourceStreamReader

構文

メソッド

メモ

例示

フィードバック

その他のリソース