クイック スタート: OneLake にデータを取得する

OneLake は、Microsoft Fabric用の単一の統合データ レイクです。 すべてのFabricワークロードは OneLake を介してデータの読み取りと書き込みを行います。そのため、データを読み込む必要があるのは、すべての場所で使用するために 1 回だけです。 OneLake には、いくつかの方法でデータを取り込むことができます。

  • ファイルをレイクハウスまたは倉庫に直接アップロードします。
  • パイプライン、データフロー、またはストリーミング エクスペリエンスを使用してデータを取り込みます。
  • ショートカットまたはミラーリングを使用して外部データに接続します。

このクイック スタートでは、2 つの方法でデータを OneLake に取り込みます。CSV ファイルを lakehouse にアップロードし、コピーせずに同じデータを指す OneLake ショートカットを 2 つ目のレイクハウスから作成します。 完了すると、クエリ可能な Delta テーブルとショートカットがあり、OneLake を介してすべてのFabric エンジンで使用できます。

前提条件

レイクハウスを作成する

レイクハウス、倉庫、イベントハウスなどのFabricアイテムを作成すると、そのアイテムはユーザーに代わって OneLake にストレージをプロビジョニングします。 このクイック スタートでは、非構造化データまたは半構造化データのファイル領域 (ファイル) と、構造化されたクエリ可能なデータ用の Delta テーブル領域 (テーブル) の両方を提供する lakehouse を作成します。 いずれかの領域に配置したすべてのものは OneLake に格納され、他のFabricワークロードにすぐにアクセスできます。

  1. Fabric ポータルにサインインし、ワークスペースを選択します。

  2. [ 新しい項目] を選択します。

  3. [ 新しいアイテム ] ウィンドウで、 Lakehouse を検索して選択します。

  4. DataLakehouseなどの名前を入力し、[作成] を選択します。

    Lakehouse が開き、 エクスプローラー ビューに空の [テーブルファイル ] セクションが表示されます。 どちらのセクションも既に OneLake によってサポートされており、コンテンツの準備が整っています。

サンプル データのアップロード

このクイック スタートでは、一般公開されているFabricサンプル データセットから Dim_Products.csv を使用します。 これは、サンプルコーヒー小売業者からの製品情報の小さなテーブルです。

  1. ブラウザーを開き、https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv に移動します。
  2. メッセージが表示されたら、ファイルをコンピューター上のフォルダーに Dim_Products.csv として保存します。

このセクションでは、Dim_Products.csvを Files にアップロードして、生のソース データが OneLake に格納されるようにします。 レイクハウスの ファイル 領域は、OneLake の汎用ストレージ ゾーンです。 これを、どのような形式で届いたとしても生データのランディングゾーンだと考えてください。 最初にスキーマを定義しなくても、CSV、JSON、Parquet、イメージ、ログなどを削除できます。

  1. レイクハウス エクスプローラーで、[ ファイル] にカーソルを合わせ、その他のオプション (...) メニューを選択し、[ ファイルのアップロード>アップロード] を選択します。

  2. [ ファイルのアップロード ] ウィンドウで、フォルダー アイコンを選択し、コンピューター上の Dim_Products.csv を参照します。

  3. [ アップロード] を選択し、アップロード ウィンドウを閉じます。

  4. [ファイル] フォルダーを選択して内容を表示し、Dim_Products.csvが表示されることを確認します。

  5. Dim_Products.csvを選択すると、そのデータが表示されます。

    レイクハウスの [Files] セクションに非構造化の CSV データが表示されている Fabric ポータルのスクリーンショット。

ファイルは OneLake に存在しますが、未加工の CSV として、SQL または Spark がテーブルとしてクエリを実行できるものではありません。

Delta テーブルにファイルを読み込む

Fabric では、OneLake のテーブル形式として Delta Lake を標準採用しています。 Tables 領域にファイルを読み込むとき、Fabricはソース ファイルを読み取り、スキーマを推論し、データを Delta テーブルとして書き込みます。 その時点から、すべてのFabric エンジンは、データを再度コピーまたは変換することなく、同じテーブルに対してクエリを実行できます。

  1. レイクハウス エクスプローラーで、[ ファイル ] フォルダーを開きます。

  2. Dim_Products.csv ファイルにカーソルを合わせ、その他のオプション (...) メニューを選択し、[テーブルに読み込む]>[新しいテーブル] を選択します。

  3. [ テーブルに読み込む ] ダイアログで、テーブル名に dim_products を入力し、既定値のままにして、[ 読み込み] を選択します。

  4. 読み込みが完了したら、[ テーブル] を展開し、 dim_products を選択して行をプレビューします。 Files の生 CSV は変更されず、dim_productsはそこから構築された新しい Delta テーブルです。

    レイクハウスの [テーブル] セクションの構造化された Delta テーブル データを示すスクリーンショット。

  5. dim_products上にマウス ポインターを置き、その他のオプション (...) メニューを選択してから、[プロパティ] を選択します。

    Properties 画面には、他のエンジンでこのテーブルを参照するために使用できる URL と Azure BLOB ファイル システム (ABFS) パスなど、テーブルのさまざまな詳細が表示されます。

2 つ目のレイクハウスからのショートカットを使用してデータを再利用する

アップロードと読み込みは、OneLake にデータを取得する 1 つの方法です。 もう 1 つの重要なパターンは、別の場所に既に存在するデータを、複製せずに参照することです。 ショートカットとは、別のレイクハウス、別のFabric ワークスペース、または Azure Data Lake Storage や Amazon S3 などのFabricの外部でサポートされているソースに格納されているデータを参照する OneLake のポインターです。 データはコピーされません。これはソースの場所にとどまりますが、OneLake を通じてローカルであるかのように読み取ることができます。 ソースに対する更新はショートカットを通じてすぐに表示されるため、データのコピーを保持する必要はありません。

このセクションでは、2 つ目のレイクハウスを作成し、そこから最初のレイクハウスの dim_products テーブルにショートカットを追加します。 これは、1 つのチームがキュレーションされたデータを所有し、他のチームまたはプロジェクトが自分のワークスペース内のショートカットを通じてそれを使用する、チームの通常の動作を反映しています。

  1. ワークスペースで、[ 新しい項目] を選択します。
  2. [ 新しいアイテム ] ウィンドウで、 Lakehouse を検索して選択します。
  3. ShortcutLakehouseなどの名前を入力し、[作成] を選択します。
  4. 新しい Lakehouse のエクスプローラーで、[ テーブル] にカーソルを合わせ、その他のオプション (...) メニューを選択し、[ 新しいショートカット] を選択します。
  5. 新しいショートカット ページの Internal sources で、Microsoft OneLake を選択します。
  6. データ ソース ブラウザーで、このクイック スタート用に作成した最初の lakehouse を選択し、[ 次へ] を選択します。
  7. [ テーブル] を展開し、 dim_products テーブルを選択し、[ 次へ] を選択します。
  8. 選択内容を確認し、[ 作成] を選択します。
  9. ShortcutLakehouse] を展開し、dim_productsがショートカット アイコン (テーブル アイコン上の小さなリンク画像) と共に表示されることを確認します。 それを選択して行をプレビューします。 テーブルは元のレイクハウスと同じですが、データはコピーされませんでした。
  10. dim_productsテーブルにカーソルを合わせ、その他のオプション (...) を選択し、[ショートカットの管理] を選択します。 [ ショートカットの管理 ] ウィンドウでは、元のデータが格納されているショートカット ターゲットなど、ショートカットの詳細を表示できます。

リソースをクリーンアップする

他の OneLake クイックスタートに進む予定がない場合は、Fabric 容量に対して発生する OneLake ストレージ料金を避けるために、レイクハウスを削除してください。

  1. ワークスペースで、削除するレイクハウスにカーソルを合わせます。
  2. lakehouse の横にあるその他のオプション (...) メニューを選択し、[ 削除] を選択して、削除を確認します。

また、レイクハウスを削除すると、アップロードされたファイル、 dim_products Delta テーブル、ショートカットなどの内容も削除されます。