Genie Space のテストと監視

実際の質問を使用して Genie Space をテストし、生成された SQL と視覚化を確認し、Genie が問題が発生したときに応答を編集し、空間の使用状況とユーザーフィードバックを監視して、データや質問の進化に合わせてスペースを正確に保つことができます。 ベンチマークを使用して、応答の精度を大規模にスコア付けします。

Genie Space をテストする

ほとんどのユーザー操作は、チャット ウィンドウで行われます。 スペースが必要に合わせて動作しているかどうかを確認する最善の方法は、ビジネス ユーザーが尋ねる現実的な質問でテストすることです。

次のテキストで説明されている新しいチャット ウィンドウ。

スペース設定で構成されたサンプルの質問がチャット ウィンドウに表示されます。 Genie は、空間のコンテキストに基づいてサンプルの質問を生成して、ユーザーがデータの探索を開始するのに役立つ場合もあります。 ユーザーは、サンプルの質問をクリックするか、画面の下部にあるテキスト フィールドに独自の質問を入力できます。

応答はテキスト フィールドの上に表示されます。 ユーザーが質問を入力すると、チャット履歴に保存されます。

新しい会話を開始するには:

  1. [ 新しいチャット ] をクリックして新しいチャットを開始します。 [ 履歴] アイコン をクリックして、前の会話を開きます。
  2. [質問する...] テキスト入力フィールドに質問を入力します。

回答を確認する

通常、回答は、質問に対する自然言語の回答と、関連する結果セットを示すテーブルとして配信されます。 Genie は、視覚エフェクトによって応答の明瞭度が向上する可能性があることを検出すると、視覚エフェクトも返します。 正確な応答構造は、質問によって異なります。 質問に回答するために SQL クエリが生成された場合、そのクエリは応答に含まれます。

視覚化、フィードバック、その他のオプションを含む応答の例を示します。

Note

他の大きな言語モデル (LLM) と同様に、Genie は非決定論的な動作を示すことができます。 これは、同じプロンプトを複数回送信するときに、異なる出力を受け取る場合があることを意味します。 Genie が学習できる SQL クエリの例を提供すると、Genie の一貫性を高めるのに役立ちます。 SQL クエリと関数の例を追加するを参照してください。

応答フィードバック

各応答では、ユーザーに回答を求めるメッセージが表示されます。これは正しいですか? ユーザーは、次のいずれかの方法で応答できます。

  • はい: 応答が正確に表示されていることを確認します。
  • [修正]: 応答に正しくないというフラグを設定します。 ユーザーは、一般的な問題から選択するか、独自の説明を入力できます。 その後、次のことができます。
    • [ 送信] をクリックし、もう一度試して 、提供されたフィードバックを使用して応答を再生成します。
    • [ 送信] をクリックして、応答を再生成せずにフィードバックを送信します。
  • レビューの要求: 手動レビューの応答にフラグを設定します。 ユーザーはオプションのコメントを追加して、追加のコンテキストを提供できます。

エディターとして、Genie インターフェイスでフィードバックとフラグ付き応答を表示できます。 Genie Space の動作は、ユーザーのフィードバックだけでは変わりません。 フィードバックを使用して改善の機会を特定するか、ユーザーの質問に直接回答する必要があります。 Databricks では、このメカニズムを使用して、空間に関するフィードバックを提供するようユーザーに勧めます。

ビジネス ユーザーは、[ モニター ] ページでレビュー対象としてマークした質問の更新を表示できます。 Genie Space で少なくとも CAN MANAGE 権限を持つユーザーは、特定の交換を確認し、要求にコメントし、応答を確認または修正できます。 監視ページでフィードバックにアクセスし、要求を確認できます。 その後、そのフィードバックを使って応答を調整し、スペースで反復処理できます。 「 領域の監視」を参照してください。

その他の応答アクション

生成された SQL を含む応答の場合、追加のオプションを使用して、返されたデータを操作できます。

  • CSV のコピー: スペース ユーザーは、最大約 1 GB の結果データを CSV としてダウンロードできます。 最終的なファイル ダウンロードよりも前の手順に 1 GB の制限が適用されるため、最終的なファイル ダウンロード サイズは 1 GB よりも多少増減する場合があります。 結果をダウンロードするには、応答のダウンロード アイコンをクリックします。

  • コードの表示: [ コードの表示 ] をクリックして、生成されたクエリを表示します。 これは、信頼性の低い応答のトラブルシューティングに役立ちます。 「 クエリの編集と保存」を参照してください。

  • Kebab メニュー アイコン。 kebab メニュー:次のアクションにアクセスします。

    • CSV のコピー: 応答 CSV をクリップボードにコピーします。
    • 命令として追加します。 同様の質問に答える方法を Genie に教えるのに役立つ可能性がある対話については、[ 命令として追加] をクリックします。 これにより、質問と生成された SQL が入力された SQL クエリの例を保存するための UI が開きます。 この例は、書き込まれたままにするか、編集して保存して変更を加えることができます。 SQL クエリと関数の例を追加するを参照してください。
    • ベンチマークとして追加: ベンチマークの質問として質問を追加します。 ベンチマークを参照してください。
    • データの更新: 以前に生成されたクエリを実行してデータを更新します。
    • 回答を再生成する: 質問をもう一度送信し、Genie に応答を再生成させます。

クエリの編集と保存

Genie の SQL クエリは、精度を確認し、必要に応じて編集できます。 Genie Space の作成者は、通常、Genie が誤った回答を生成するときに認識できるドメインとデータを知っています。 多くの場合、生成された SQL クエリに対して少量の手動チューニングを行うと、エラーを修正できます。 [ 生成されたコードの表示 ] をクリックしてクエリを検査し、生成された SQL で応答を確認します。

Genie Space で CAN EDIT 以上の権限を持っている場合は、生成された SQL ステートメントを編集して修正できます。 修正が完了したら、クエリを実行します。 その後、将来の答え方を Genie に教える指示として保存できます。 編集したクエリを保存するには、[ 命令として追加] をクリックします。

領域を監視する

Genie Space は、データ チームとビジネス ユーザー間の長期的なコラボレーション ツールと考えることができます。 これは、1 回限りのデプロイとして機能するのではなく、時間の経過と伴う知識を蓄積します。 ユーザーが新しい質問をするにつれて、スペースを調整し、カバレッジと精度を向上させることができます。

[監視] タブを使用して、個々の質問と回答を確認し、ユーザーのフィードバックを表示し、レビューのフラグが設定された回答を特定します。

説明されている機能を示す監視タブの例。

[モニター] タブには、空間で質問されたすべての質問と回答が表示されます。 質問は、時間、評価、ユーザー、または状態でフィルター処理できます。 領域を監視することで、CAN MANAGE アクセス許可を持つユーザーは、ビジネス ユーザーによって発生したクエリと Genie Space の応答を事前に理解できます。

Genie が苦労している質問を特定すると、Genie Space を特定の指示に更新して応答を改善するのに役立ちます。 質問をクリックして質問と回答のテキストを開き、完全なチャット スレッドを表示します。

モニタータブの毎週のダイジェストセクションを使用して、毎週のメッセージの量、アクティブユーザー、いいね/バッドフィードバックを確認します。 使用率の傾向と一般的な問題を特定するには、[ 領域の使用状況の分析] をクリックします。 これにより Genie Code が起動され、空間の監視データが分析され、使用パターンと改善のための領域が要約されます。 Genie Code の応答には、スペース内の関連する会話にリンクする引用文献が含まれます。 引用文献をクリックすると、Genie Code スレッドで会話が直接開きます。

[監視] タブの [週単位のダイジェスト] セクションには、毎週のメッセージ、ユーザー、フィードバックが表示されます。

会話の品質を確認する

Important

この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Manage Azure Databricks プレビューを参照してください。

会話がスペース マネージャーによって [レビュー可能] に設定されている場合、CAN MANAGE アクセス許可を持つユーザーは、[監視] タブから会話を開いて、完全な交換を確認できます。 これにより、Genie の応答品質を評価し、ユーザーのフィードバックに応答し、追加の命令またはサンプル クエリによって精度が向上する領域を特定できます。 [プライベート] に設定された会話の場合、Space Manager は監視タブにユーザー プロンプトを表示できますが、完全な会話や結果を表示することはできません。 詳細については、「 会話を共有する」を参照してください。

Note

ベータ版が有効になる前に作成された会話は プライベートのままです。 有効にした後に作成された会話は、 スペース マネージャーによって既定で [レビュー可能] に設定されます。

Benchmarks

ベンチマークを使用すると、Genie の全体的な応答精度を評価するために実行できる一連のテスト質問を作成できます。 よく寄せられるユーザーの質問をカバーする適切に設計されたベンチマークのセットは、Genie Space を絞り込む際の精度の評価に役立ちます。 各 Genie Space には、最大 500 個のベンチマークの質問を含めることができます。

ベンチマークの質問は、新しい会話として実行されます。 スレッド化された Genie 会話と同じコンテキストは含まれません。 各質問は、指定された SQL 関数と SQL 関数の例を含め、スペースで定義されている命令を使用して、新しいクエリとして処理されます。

ベンチマークの質問では、次の 2 つのモードがサポートされます。

  • チャット モード: 既定のモード。 Genie は、SQL で生成された結果を指定された SQL 回答と比較することで、精度を評価します。
  • エージェント モード: Genie のエージェント モードと同じマルチステップ推論を使用してベンチマークの質問を実行します。 LLM の判事が回答を評価します。 オプションの評価メモを提供して、採点をガイドできます。

9 つの質問に関する正確なベンチマーク例を報告します。

ベンチマークの質問を追加する

ベンチマークの質問は、ユーザーによって寄せられる一般的な質問についてのさまざまな言い方を反映している必要があります。 これらを使用して、質問のフレージングや異なる質問形式のバリエーションに対する Genie の応答を確認できます。

ベンチマークの質問を作成する際、必要に応じて、結果セットが正しい回答である SQL クエリを含めることができます。 ベンチマークの実行中に、SQL クエリの結果セットと Genie によって生成された結果セットを比較することで、正確性が評価されます。 Unity カタログ SQL 関数をベンチマークのゴールド スタンダードの回答として使用することもできます。

ベンチマークの質問を追加するには:

  1. Genie Space の上部にある [ ベンチマーク] をクリックします。

  2. [ベンチマークを追加] をクリックします。

  3. [質問] フィールドに、テストするベンチマークの質問を入力します。

  4. モード ( チャット またはエージェント) を選択 します

    • チャット モード: Genie は、結果を指定した SQL 回答と比較することで、精度を評価します。
    • エージェント モード: Genie では、複数ステップの推論を使用して質問に回答します。 LLM の判事が回答を評価します。
  5. (チャット モードのみ)質問に回答する SQL クエリを指定します。 Unity カタログ SQL 関数を含め、 SQL Answer ボックスに入力することで、独自のクエリを作成できます。 または、[SQL の 生成 ] をクリックして Genie に SQL クエリを作成してもらう必要があります。 入力した質問に正確に回答する SQL ステートメントを使用します。

    Note

    この手順は推奨されています。 この例の SQL ステートメントを含む質問のみが、正確性について自動で評価されます。 SQL の回答を含まない質問については、手動でレビューを行いスコアリングする必要があります。 [ SQL の生成 ] ボタンを使用する場合は、ステートメントを確認して、質問に正確に回答していることを確認します。

  6. (エージェント モードのみ、省略可能)[ 評価メモ ] フィールドに、正しい回答または予想されるコンテンツに関するガイダンスを入力します。 Genie は評価ノートを LLM ジャッジに渡します。 このメモでは、エージェント モードで生成されるテキスト レポートで予想されるコンテンツを参照できます。

  7. (チャット モードのみ、省略可能)[ 実行 ] をクリックしてクエリを実行し、結果を表示します。

  8. 編集が完了したら、[ ベンチマークの追加] をクリックします。

  9. 保存後に質問を更新するには、[編集] アイコン 鉛筆アイコンをクリックして [Update question (質問を更新)] ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genie Space の精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。 ユーザーは、異なる言い方で同じ質問をすることがあります。 Databricks では、同じ質問における複数の言い回しを追加し、ベンチマーク テストで同じ例の SQL を使用して、正確性を完全に評価することが推奨されます。 ほとんどの Genie Spaces には、同じ質問の 2 から 4 つの言い回しを含める必要があります。

ベンチマークの質問を実行する

Genie Space で少なくとも CAN EDIT 権限を持つユーザーは、いつでもベンチマーク評価を実行できます。 すべてのベンチマークの質問を実行することも、テストする質問のサブセットを選択することもできます。

各質問について、Genie は入力を解釈し、SQL を生成し、結果を返します。 生成された SQL と結果は、ベンチマークの質問で定義されている SQL 回答 と比較されます。

すべてのベンチマークの質問を実行するには:

  1. Genie Space の上部にある [ ベンチマーク] をクリックします。
  2. [実行ベンチマーク] をクリックしてテストの実行を開始します。

ベンチマークの質問のサブセットを実行するには:

  1. Genie Space の上部にある [ ベンチマーク] をクリックします。
  2. テストする質問の横にあるチェック ボックスをオンにします。
  3. [ 選択した実行 ] をクリックして、選択した質問でテストの実行を開始します。

前のベンチマーク結果から質問のサブセットを選択し、それらの特定の質問を再実行して改善点をテストすることもできます。

ページから離れると、ベンチマークは引き続き実行されます。 実行が完了したら、[ 評価 ] タブで結果を確認できます。

評価を解釈する

ベンチマーク モードは、Genie による評価の計算方法を決定します。

チャット モードの評価

Genie がチャット モードの応答を評価する方法は、次の条件によって決まります。

状態 Rating
Genie は、指定された SQL 回答と完全に一致する SQL を生成します よし
Genie は、SQL Answer によって生成された結果セットと正確に一致する結果セットを生成します よし
Genie は 、SQL Answer と同じデータを使用して結果セットを生成しますが、並べ替えが異なります よし
Genie は、SQL Answer と同じ 4 桁の有効桁数に丸める数値を含む結果セットを生成します よし
Genie は、空の結果セットを生成するか、エラーを返す SQL を生成します 悪い
Genie は、SQL Answer によって生成された結果セットと比較して追加の列を含む結果セットを生成します 悪い
Genie は、SQL Answer によって生成される単一のセルの結果とは異なる単一のセル結果を生成します 悪い

手動レビューが必要: Genie が正確性を評価できない場合、または Genie によって生成されたクエリ結果に、指定された SQL 回答の結果と完全に一致するものが含まれていない場合、応答はこのラベルでマークされます。 SQL Answer (SQL 回答) を含まないベンチマークの質問は、手動でレビューする必要があります。

エージェント モードの評価

LLM は、SQL 比較を使用するのではなく、エージェント モードの応答を評価します。 評価メモを提供した場合、LLM ジャッジは、エージェント モードで生成されるテキスト レポート内の予想されるコンテンツを含め、応答を評価する際のガイダンスとして使用します。 評価書の基準を満たす回答を グッドと評価します。

ベンチマークの評価にアクセスする

すべてのベンチマーク評価にアクセスして、Genie Space の精度を経時的に追跡できます。 スペースの ベンチマークを開くと、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価の実行が見つからない場合は、「ベンチマークの質問 追加する」または「ベンチマークの質問実行する」を参照してください。

次のテキストで説明されている [評価] の画面。

[評価] タブには、評価の概要とそのパフォーマンスが次のカテゴリで報告されます。

評価名: 評価の実行がいつ発生したかを示すタイムスタンプ。 タイムスタンプをクリックすると、その評価の詳細が表示されます。 [実行ステータス]: 評価が完了したか、一時停止したか、失敗したかを示します。 評価実行に定義済みの SQL 回答がないベンチマークの質問が含まれている場合、この列ではレビュー対象としてマークされます。 [正確性]: ベンチマークの質問すべての正確性が数値で評価されます。 手動のレビューを必要とする評価実行では、正確性の測定はこれらの質問がレビューされた後にのみ表示されます。 [作成者]: 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価をレビューして、各応答の詳細を確認できます。 質問の評価を編集して、手動のレビューが必要な項目を更新できます。

個々の評価をレビューするには:

  1. Genie Space の上部付近にある [ ベンチマーク] をクリックします。

  2. Evaluation name 列の評価のタイムスタンプをクリックして、そのテストの実行についての詳細ビューを開きます。

    1 回の評価実行の結果を示す画面。すべての質問が左側に一覧表示されます。該当する場合、モデル出力とグラウンドトゥルース出力を使用すると、個々の質問が右側に表示されます。

  3. 画面の左側にある質問リストを使用して、各質問の詳細ビューを表示します。

  4. モデル出力応答とグラウンドトゥルース応答を確認して比較します。

    結果が正しくないと評価された場合、結果が Bad と評価された理由を説明する説明が表示されます。 これにより、生成された出力と期待される真実のデータの具体的な違いを理解するのに役立ちます。

    Note

    これらの応答の結果は、評価の詳細に 1 週間表示されます。 1 週間後、結果は表示されなくなります。 生成された SQL ステートメントと SQL ステートメントの例はそのまま残ります。

  5. この質問の新しい 地上の真理 として応答を保存するには、[ 地上の真理 を更新] をクリックします。 これは、地上の真理が存在しない場合、または応答が既存の地上真理書よりも優れているか正確である場合に役立ちます。

  6. ラベルの [編集] アイコン をクリックして評価を編集します。

    各結果を良好または不良としてマークして、この評価の正確なスコアを取得します。