Lakeflow Designer でビジュアル データ準備を作成する方法

Important

この機能は パブリック プレビュー段階です

Lakeflow Designer を使用すると、ビジュアルのドラッグ アンド ドロップ キャンバスでデータ変換ワークフローを構築できます。 このページでは、データ ソースの追加や演算子のチェーンから結果のプレビュー、Unity カタログへの書き込みまで、ビジュアル データ準備を作成する方法について説明します。

ビジュアル データ準備をビルドするには:

  1. 要件を確認する
  2. 視覚的データ準備を行う
  3. データ ソースの追加
  4. 演算子の追加と構成
  5. 接続オペレーター
  6. プレビュー結果
  7. Unity カタログに結果を書き込む
  8. 運用環境でスケジュールを設定または実行する

Requirements

Lakeflow Designer を使用するには、次が必要です。

  • Unity カタログが有効になっている Azure Databricks ワークスペース。
  • CAN USE 少なくとも 1 つのコンピューティング リソース (サーバーレスまたは汎用) に対するアクセス許可。
  • Azure Databricks AI 支援機能 enabled。 モデルがリージョンで使用できない場合は、 クロス geo 処理を有効にする必要がある場合もあります。

新規ビジュアル データ準備環境を作成する

新しいビジュアル データ準備を作成するには、[プラス] アイコンをクリックします。サイドバーの新機能を選択し、[ビジュアルデータの準備] を選択します。

デザイナーが開き、ようこそ画面が表示され、データ ソースを追加したり、サンプルの Visual データ準備を探索したりできます。

データ ソースを追加する

すべてのデザイナー ワークフローは、1 つ以上のデータ ソースから始まります。 Source 演算子は、キャンバス上のデータ ソースを表します。

データ ソースを追加するには:

  1. Source 演算子を追加します。 ようこそ画面で、[ ソース演算子の選択] をクリックします。 キャンバスからオペレーター メニューを開き、[ソース] を選択 します
  2. [ソース構成] ウィンドウで、データを取り込む方法を選択します。 既存のテーブルを参照したり、ローカル CSV またはExcel ファイルをアップロードしたり、ファイルからテーブルを作成したり、Google Drive または SharePoint からインポートしたりできます。
  3. データ ソースを選択または構成します。 Source 演算子がキャンバスに表示されます。

CSV またはExcel ファイルをキャンバスに直接ドラッグ アンド ドロップして、Source 演算子をすばやく作成することもできます。

後でソースを変更するには、Source 演算子を開き、[ 新しいデータ ソースの選択] をクリックします。 ソースを変更すると、すべてのダウンストリーム演算子の出力キャッシュが無効になります。

各インジェスト オプションの詳細については、「 Lakeflow Designer へのデータの取り込み」を参照してください。

演算子の追加と構成

演算子を追加するには、キャンバスの左側にあるサイド パネルで演算子メニューを開きます。 演算子をクリックしてキャンバスに追加するか、メニューからキャンバスに演算子をドラッグします。 既存のオペレーターの横にある [ + ] ボタンをクリックして、自動接続で新しいオペレーターを追加することもできます。

キャンバスにドラッグ アンド ドロップする LFD 操作メニュー。

オペレーターを構成するには、オペレーターをダブルクリックするか、ポインターをその上に置いて 鉛筆アイコン をクリックします 。(編集演算子) をクリックして、構成ウィンドウを開きます。 その演算子の種類のオプションを設定し、[ 適用] をクリックします。

使用可能な各演算子の詳細については、 Lakeflow Designer の組み込み演算子を参照してください。

接続演算子

2 つの演算子を接続するには、出力ハンドル (演算子の右端にある小さな円) をクリックして入力ハンドル (次の演算子の左端にある小さな円) にドラッグします。 これは、データが最初の演算子から 2 番目の演算子に流れることを指定します。 データは、ビジュアル データ準備を通じて左から右に流れます。

2 つの演算子間の接続を示す LFD キャンバス。

結合結合などの一部の演算子は、複数の入力を受け入れます。

Genie コードを使用する

Lakeflow Designer での編集中はいつでも、Genie Code にヘルプを表示するプロンプトを作成できます。

LFD Genie Code プロンプト

Genie Code を使用する場合、次のボタンによって追加の機能が提供されます。

  • 画像アイコン: プロンプトの一部として使用する画像をアップロードします。
  • アイコンで: プロンプトの一部として使用するテーブルやファイルなどのオブジェクトをメンションするために使用します。
  • 吹き出しとアイコン: 新しいエージェント コンテキストで新しいチャット スレッドを開始します。
  • 閲覧者モード アイコン: 会話履歴のサイド パネルと、エージェントが実行している内容のより詳細なビューを開きます。

結果のプレビュー

任意の演算子を選択すると、画面の下部にある出力ウィンドウに結果が表示されます。 ほとんどの演算子の種類では、入力データは左側にあり、出力データは右側にあります。

キャンバスの下の LFD 出力ペイン。

既定では、演算子は最大 1,000 行のデータのサンプルで実行されます。 完全なデータセットで実行するには、出力ウィンドウで [ サンプル データセット ] をクリックし、[ 完全なデータセット] に切り替えます。

Warnung

完全なデータセットを使用して実行すると、すべてのアップストリーム演算子が、無制限の完全なデータセットで再実行され、時間がかかる場合があります。

データプロファイリング

出力ウィンドウでは、出力内のデータの詳細を表示することを選択できます。 出力ウィンドウの右上隅にある サイドバー アイコン を選択します。サイドバー ボタンをクリックして、選択の詳細を開きます。 データのサブセットを選択すると、選択内容の詳細が表示されます。

選択した出力データに関するグラフと詳細を示すサイドバー。

Unity カタログに結果を書き込む

Unity カタログのテーブルに結果を書き込む Output 演算子を追加します。

  1. 演算子メニューを開き、[ 出力] を選択するか、最後の演算子 + 横にある [ 出力] をクリックします。
  2. 接続されていない場合は、最後の変換の出力ハンドルを Output 演算子の入力ハンドルに接続します。
  3. Output 演算子をダブルクリックして、その構成ウィンドウを開きます。
  4. テーブル名を入力し、出力場所 (カタログとスキーマ) を選択します。
  5. [実行] をクリックします。

運用環境でスケジュールを設定または実行する

ワークフローは、ジョブとしてスケジュールすることで自動化できます。

  • 直接スケジュールを設定する: 上部のメニューの [スケジュール ] ボタンをクリックして、Visual データ準備のスケジュールされたジョブを作成します。
  • ジョブに追加する: Azure Databricks ジョブを作成し、デザイナービジュアルのデータ準備をタスクとして選択します。 これにより、そのビジュアル データの準備を、より大きなパイプライン内の他のタスクと組み合わせることができます。

ジョブとしてのビジュアル データ準備を自動化するための LFD スケジュール 制御。

キャンバスで作業するときのその他のヒント

ビジュアル データの準備を編集するために、キャンバスで次のアクションを使用できます。

  • 演算子の名前を変更する: 構成ウィンドウの上部にあるテキスト フィールドをクリックして、オペレーターの名前を変更します。 わかりやすい名前を使用すると、視覚的なデータ準備を一目で理解しやすくなります。 SQL 演算子などの一部の演算子は、他の演算子の出力を名前で参照できます。
  • 演算子をコピーする: 演算子の上にポインターを置き、[ コピー] アイコンをクリックします。または、演算子を選択して Cmd/Ctrl + C キーを押し、 Cmd/Ctrl + V キーを押します。
  • 自動レイアウト: DAG 水平アイコン をクリックします。左下のツール バーで、すべての演算子をコンパクト なレイアウトに自動的に配置します。
  • フィット ビュー: [ ズーム]をクリックしてアイコンに合わせる 。左下のツールバーで、現在のビューポート内のすべての演算子を表示します。
  • 元に戻してやり直す: Cmd キーと Ctrl キーを押しながら Z キーを押し、 Cmd キーと Ctrl キーを押しながら Shift キーを押しながら Z キーを押すか、上部のツール バーのボタンを使用します。

次のステップ