Important
この機能は パブリック プレビュー段階です。
Lakeflow Designer を使用すると、ビジュアルのドラッグ アンド ドロップ キャンバスでデータ変換ワークフローを構築できます。 このページでは、データ ソースの追加や演算子のチェーンから結果のプレビュー、Unity カタログへの書き込みまで、ビジュアル データ準備を作成する方法について説明します。
ビジュアル データ準備をビルドするには:
- 要件を確認する
- 視覚的データ準備を行う
- データ ソースの追加
- 演算子の追加と構成
- 接続オペレーター
- プレビュー結果
- Unity カタログに結果を書き込む
- 運用環境でスケジュールを設定または実行する
Requirements
Lakeflow Designer を使用するには、次が必要です。
- Unity カタログが有効になっている Azure Databricks ワークスペース。
-
CAN USE少なくとも 1 つのコンピューティング リソース (サーバーレスまたは汎用) に対するアクセス許可。 - Azure Databricks AI 支援機能 enabled。 モデルがリージョンで使用できない場合は、 クロス geo 処理を有効にする必要がある場合もあります。
新規ビジュアル データ準備環境を作成する
新しいビジュアル データ準備を作成するには、[プラス] アイコンをクリックサイドバーの新機能を選択し、[ビジュアルデータの準備] を選択します。
デザイナーが開き、ようこそ画面が表示され、データ ソースを追加したり、サンプルの Visual データ準備を探索したりできます。
データ ソースを追加する
すべてのデザイナー ワークフローは、1 つ以上のデータ ソースから始まります。 Source 演算子は、キャンバス上のデータ ソースを表します。
データ ソースを追加するには:
- Source 演算子を追加します。 ようこそ画面で、[ ソース演算子の選択] をクリックします。 キャンバスからオペレーター メニューを開き、[ソース] を選択 します。
- [ソース構成] ウィンドウで、データを取り込む方法を選択します。 既存のテーブルを参照したり、ローカル CSV またはExcel ファイルをアップロードしたり、ファイルからテーブルを作成したり、Google Drive または SharePoint からインポートしたりできます。
- データ ソースを選択または構成します。 Source 演算子がキャンバスに表示されます。
CSV またはExcel ファイルをキャンバスに直接ドラッグ アンド ドロップして、Source 演算子をすばやく作成することもできます。
後でソースを変更するには、Source 演算子を開き、[ 新しいデータ ソースの選択] をクリックします。 ソースを変更すると、すべてのダウンストリーム演算子の出力キャッシュが無効になります。
各インジェスト オプションの詳細については、「 Lakeflow Designer へのデータの取り込み」を参照してください。
演算子の追加と構成
演算子を追加するには、キャンバスの左側にあるサイド パネルで演算子メニューを開きます。 演算子をクリックしてキャンバスに追加するか、メニューからキャンバスに演算子をドラッグします。 既存のオペレーターの横にある [ + ] ボタンをクリックして、自動接続で新しいオペレーターを追加することもできます。
オペレーターを構成するには、オペレーターをダブルクリックするか、ポインターをその上に置いて をクリックします 。(編集演算子) をクリックして、構成ウィンドウを開きます。 その演算子の種類のオプションを設定し、[ 適用] をクリックします。
使用可能な各演算子の詳細については、 Lakeflow Designer の組み込み演算子を参照してください。
接続演算子
2 つの演算子を接続するには、出力ハンドル (演算子の右端にある小さな円) をクリックして入力ハンドル (次の演算子の左端にある小さな円) にドラッグします。 これは、データが最初の演算子から 2 番目の演算子に流れることを指定します。 データは、ビジュアル データ準備を通じて左から右に流れます。
結合や結合などの一部の演算子は、複数の入力を受け入れます。
Genie コードを使用する
Lakeflow Designer での編集中はいつでも、Genie Code にヘルプを表示するプロンプトを作成できます。
Genie Code を使用する場合、次のボタンによって追加の機能が提供されます。
-
プロンプトの一部として使用する画像をアップロードします。
-
プロンプトの一部として使用するテーブルやファイルなどのオブジェクトをメンションするために使用します。
-
新しいエージェント コンテキストで新しいチャット スレッドを開始します。
-
会話履歴のサイド パネルと、エージェントが実行している内容のより詳細なビューを開きます。
結果のプレビュー
任意の演算子を選択すると、画面の下部にある出力ウィンドウに結果が表示されます。 ほとんどの演算子の種類では、入力データは左側にあり、出力データは右側にあります。
既定では、演算子は最大 1,000 行のデータのサンプルで実行されます。 完全なデータセットで実行するには、出力ウィンドウで [ サンプル データセット ] をクリックし、[ 完全なデータセット] に切り替えます。
Warnung
完全なデータセットを使用して実行すると、すべてのアップストリーム演算子が、無制限の完全なデータセットで再実行され、時間がかかる場合があります。
データプロファイリング
出力ウィンドウでは、出力内のデータの詳細を表示することを選択できます。 出力ウィンドウの右上隅にある を選択します。サイドバー ボタンをクリックして、選択の詳細を開きます。 データのサブセットを選択すると、選択内容の詳細が表示されます。
Unity カタログに結果を書き込む
Unity カタログのテーブルに結果を書き込む Output 演算子を追加します。
- 演算子メニューを開き、[ 出力] を選択するか、最後の演算子 + 横にある [ 出力] をクリックします。
- 接続されていない場合は、最後の変換の出力ハンドルを Output 演算子の入力ハンドルに接続します。
- Output 演算子をダブルクリックして、その構成ウィンドウを開きます。
- テーブル名を入力し、出力場所 (カタログとスキーマ) を選択します。
- [実行] をクリックします。
運用環境でスケジュールを設定または実行する
ワークフローは、ジョブとしてスケジュールすることで自動化できます。
- 直接スケジュールを設定する: 上部のメニューの [スケジュール ] ボタンをクリックして、Visual データ準備のスケジュールされたジョブを作成します。
- ジョブに追加する: Azure Databricks ジョブを作成し、デザイナービジュアルのデータ準備をタスクとして選択します。 これにより、そのビジュアル データの準備を、より大きなパイプライン内の他のタスクと組み合わせることができます。
キャンバスで作業するときのその他のヒント
ビジュアル データの準備を編集するために、キャンバスで次のアクションを使用できます。
- 演算子の名前を変更する: 構成ウィンドウの上部にあるテキスト フィールドをクリックして、オペレーターの名前を変更します。 わかりやすい名前を使用すると、視覚的なデータ準備を一目で理解しやすくなります。 SQL 演算子などの一部の演算子は、他の演算子の出力を名前で参照できます。
-
演算子をコピーする: 演算子の上にポインターを置き、[
をクリックします。または、演算子を選択して Cmd/Ctrl + C キーを押し、 Cmd/Ctrl + V キーを押します。
-
自動レイアウト:
をクリックします。左下のツール バーで、すべての演算子をコンパクト なレイアウトに自動的に配置します。
-
フィット ビュー: [
。左下のツールバーで、現在のビューポート内のすべての演算子を表示します。
- 元に戻してやり直す: Cmd キーと Ctrl キーを押しながら Z キーを押し、 Cmd キーと Ctrl キーを押しながら Shift キーを押しながら Z キーを押すか、上部のツール バーのボタンを使用します。