OneLake は、Microsoft Fabric用の単一の統合データ レイクです。 すべてのFabricワークロードは OneLake を介してデータの読み取りと書き込みを行います。そのため、データを読み込む必要があるのは、すべての場所で使用するために 1 回だけです。 OneLake には、いくつかの方法でデータを取り込むことができます。
- ファイルをレイクハウスまたは倉庫に直接アップロードします。
- パイプライン、データフロー、またはストリーミング エクスペリエンスを使用してデータを取り込みます。
- ショートカットまたはミラーリングを使用して外部データに接続します。
このクイック スタートでは、2 つの方法でデータを OneLake に取り込みます。CSV ファイルを lakehouse にアップロードし、コピーせずに同じデータを指す OneLake ショートカットを 2 つ目のレイクハウスから作成します。 完了すると、クエリ可能な Delta テーブルとショートカットがあり、OneLake を介してすべてのFabric エンジンで使用できます。
前提条件
- Fabric ライセンス。 または、無料のFabric試用版にサインアップします。
- 1 つの Fabric ワークスペース。
レイクハウスを作成する
レイクハウス、倉庫、イベントハウスなどのFabricアイテムを作成すると、そのアイテムはユーザーに代わって OneLake にストレージをプロビジョニングします。 このクイック スタートでは、非構造化データまたは半構造化データのファイル領域 (ファイル) と、構造化されたクエリ可能なデータ用の Delta テーブル領域 (テーブル) の両方を提供する lakehouse を作成します。 いずれかの領域に配置したすべてのものは OneLake に格納され、他のFabricワークロードにすぐにアクセスできます。
Fabric ポータルにサインインし、ワークスペースを選択します。
[ 新しい項目] を選択します。
[ 新しいアイテム ] ウィンドウで、 Lakehouse を検索して選択します。
DataLakehouseなどの名前を入力し、[作成] を選択します。Lakehouse が開き、 エクスプローラー ビューに空の [テーブル と ファイル ] セクションが表示されます。 どちらのセクションも既に OneLake によってサポートされており、コンテンツの準備が整っています。
サンプル データのアップロード
このクイック スタートでは、一般公開されているFabricサンプル データセットから Dim_Products.csv を使用します。 これは、サンプルコーヒー小売業者からの製品情報の小さなテーブルです。
- ブラウザーを開き、https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv に移動します。
- メッセージが表示されたら、ファイルをコンピューター上のフォルダーに
Dim_Products.csvとして保存します。
このセクションでは、Dim_Products.csvを Files にアップロードして、生のソース データが OneLake に格納されるようにします。 レイクハウスの ファイル 領域は、OneLake の汎用ストレージ ゾーンです。 これを、どのような形式で届いたとしても生データのランディングゾーンだと考えてください。 最初にスキーマを定義しなくても、CSV、JSON、Parquet、イメージ、ログなどを削除できます。
レイクハウス エクスプローラーで、[ ファイル] にカーソルを合わせ、その他のオプション (...) メニューを選択し、[ ファイルのアップロード>アップロード] を選択します。
[ ファイルのアップロード ] ウィンドウで、フォルダー アイコンを選択し、コンピューター上の
Dim_Products.csvを参照します。[ アップロード] を選択し、アップロード ウィンドウを閉じます。
[ファイル] フォルダーを選択して内容を表示し、
Dim_Products.csvが表示されることを確認します。Dim_Products.csvを選択すると、そのデータが表示されます。
ファイルは OneLake に存在しますが、未加工の CSV として、SQL または Spark がテーブルとしてクエリを実行できるものではありません。
Delta テーブルにファイルを読み込む
Fabric では、OneLake のテーブル形式として Delta Lake を標準採用しています。 Tables 領域にファイルを読み込むとき、Fabricはソース ファイルを読み取り、スキーマを推論し、データを Delta テーブルとして書き込みます。 その時点から、すべてのFabric エンジンは、データを再度コピーまたは変換することなく、同じテーブルに対してクエリを実行できます。
レイクハウス エクスプローラーで、[ ファイル ] フォルダーを開きます。
Dim_Products.csvファイルにカーソルを合わせ、その他のオプション (...) メニューを選択し、[テーブルに読み込む]>[新しいテーブル] を選択します。[ テーブルに読み込む ] ダイアログで、テーブル名に
dim_productsを入力し、既定値のままにして、[ 読み込み] を選択します。読み込みが完了したら、[ テーブル] を展開し、
dim_productsを選択して行をプレビューします。 Files の生 CSV は変更されず、dim_productsはそこから構築された新しい Delta テーブルです。
dim_products上にマウス ポインターを置き、その他のオプション (...) メニューを選択してから、[プロパティ] を選択します。Properties 画面には、他のエンジンでこのテーブルを参照するために使用できる URL と Azure BLOB ファイル システム (ABFS) パスなど、テーブルのさまざまな詳細が表示されます。
2 つ目のレイクハウスからのショートカットを使用してデータを再利用する
アップロードと読み込みは、OneLake にデータを取得する 1 つの方法です。 もう 1 つの重要なパターンは、別の場所に既に存在するデータを、複製せずに参照することです。 ショートカットとは、別のレイクハウス、別のFabric ワークスペース、または Azure Data Lake Storage や Amazon S3 などのFabricの外部でサポートされているソースに格納されているデータを参照する OneLake のポインターです。 データはコピーされません。これはソースの場所にとどまりますが、OneLake を通じてローカルであるかのように読み取ることができます。 ソースに対する更新はショートカットを通じてすぐに表示されるため、データのコピーを保持する必要はありません。
このセクションでは、2 つ目のレイクハウスを作成し、そこから最初のレイクハウスの dim_products テーブルにショートカットを追加します。 これは、1 つのチームがキュレーションされたデータを所有し、他のチームまたはプロジェクトが自分のワークスペース内のショートカットを通じてそれを使用する、チームの通常の動作を反映しています。
- ワークスペースで、[ 新しい項目] を選択します。
- [ 新しいアイテム ] ウィンドウで、 Lakehouse を検索して選択します。
-
ShortcutLakehouseなどの名前を入力し、[作成] を選択します。 - 新しい Lakehouse のエクスプローラーで、[ テーブル] にカーソルを合わせ、その他のオプション (...) メニューを選択し、[ 新しいショートカット] を選択します。
- 新しいショートカット ページの Internal sources で、Microsoft OneLake を選択します。
- データ ソース ブラウザーで、このクイック スタート用に作成した最初の lakehouse を選択し、[ 次へ] を選択します。
- [ テーブル] を展開し、
dim_productsテーブルを選択し、[ 次へ] を選択します。 - 選択内容を確認し、[ 作成] を選択します。
-
で
ShortcutLakehouse] を展開し、dim_productsがショートカット アイコン (テーブル アイコン上の小さなリンク画像) と共に表示されることを確認します。 それを選択して行をプレビューします。 テーブルは元のレイクハウスと同じですが、データはコピーされませんでした。 -
dim_productsテーブルにカーソルを合わせ、その他のオプション (...) を選択し、[ショートカットの管理] を選択します。 [ ショートカットの管理 ] ウィンドウでは、元のデータが格納されているショートカット ターゲットなど、ショートカットの詳細を表示できます。
リソースをクリーンアップする
他の OneLake クイックスタートに進む予定がない場合は、Fabric 容量に対して発生する OneLake ストレージ料金を避けるために、レイクハウスを削除してください。
- ワークスペースで、削除するレイクハウスにカーソルを合わせます。
- lakehouse の横にあるその他のオプション (...) メニューを選択し、[ 削除] を選択して、削除を確認します。
また、レイクハウスを削除すると、アップロードされたファイル、 dim_products Delta テーブル、ショートカットなどの内容も削除されます。