クイック スタート: Azure OpenAI ささやきモデルを使用した音声テキスト変換

このクイック スタートでは、Azure OpenAI ささやきモデルを使用して音声をテキストに文字起こしします。 ささやきモデルは、多くの言語で人間の音声を文字起こしし、他の言語を英語に翻訳することができます。

ヒント

このクイック スタートの所要時間は約 10 ~ 15 分です。

前提 条件

セットアップ

キーとエンドポイントを取得する

Azure OpenAI に対して正常に呼び出すには、endpointkey が必要です。

変数名
AZURE_OPENAI_ENDPOINT サービス エンドポイントは、Azure ポータルでリソースを確認する際に キーとエンドポイント セクションで見つけることができます。 または、Microsoft Foundry ポータルのDeploymentsページでエンドポイントを見つけることができます。 エンドポイントの例は、 https://docs-test-001.openai.azure.com/です。
AZURE_OPENAI_API_KEY この値は、Azure ポータルでリソースを調べたときに、Keys & Endpoint セクションで見つけることができます。 KEY1またはKEY2を使用できます。

Azure ポータルでリソースに移動します。 エンドポイントとキーは、[リソース管理] セクションにあります。 API 呼び出しを認証するために必要なエンドポイントとアクセス キーの両方をコピーします。 KEY1またはKEY2を使用できます。 常に 2 つのキーを使用すると、サービスの中断を引き起こさずに、キーを安全にローテーションおよび再生成できます。

Azure ポータルの Azure OpenAI リソースの概要 UI のスクリーンショット。エンドポイントとアクセス キーの場所が赤で囲まれています。

環境変数

キーとエンドポイントの永続的な環境変数を作成して割り当てます。

重要

API キーは慎重に使用してください。 API キーをコードに直接含めず、パブリックに投稿しないでください。 API キーを使用する場合は、Azure Key Vaultに安全に格納します。 アプリで API キーを安全に使用する方法の詳細については、「Azure Key Vault を使用した API キー」を参照してください。

AI サービスのセキュリティの詳細については、「Authenticate requests to Azure AI サービス」を参照してください。

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE" 

REST API の要求と応答を作成する

bash シェルで、次のコマンドを実行します。 YourDeploymentNameを、ささやきモデルのデプロイ時に選択したデプロイ名に置き換える必要があります。 デプロイ名は必ずしもモデル名と同じではありません。 基になるモデル名と同じデプロイ名を選択しない限り、モデル名を入力するとエラーが発生します。

curl $AZURE_OPENAI_ENDPOINT/openai/deployments/YourDeploymentName/audio/transcriptions?api-version=2024-02-01 \
 -H "api-key: $AZURE_OPENAI_API_KEY" \
 -H "Content-Type: multipart/form-data" \
 -F file="@./wikipediaOcelot.wav"

前のコマンドの最初の行とエンドポイントの例は次のようになります。

curl https://aoai-docs.openai.azure.com/openai/deployments/{YourDeploymentName}/audio/transcriptions?api-version=2024-02-01 \

重要

運用環境では、Azure Key Vault などのセキュリティで保護された方法を使用して、資格情報を保存およびアクセスしてください。 詳細については、「資格情報の セキュリティ」を参照してください。

出力を確認する

応答には、オーディオ ファイルの完全な文字起こしを含む text フィールドが含まれています。 次の例のような出力が表示されます。 エラーが発生した場合:

  • デプロイメント名が完全に一致することを確認してください。
  • オーディオ ファイルのパスが正しいことを確認する
  • API キーとエンドポイントが有効であることを確認する

出力

{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}

前提 条件

セットアップ

キーとエンドポイントを取得する

Azure OpenAI に対して正常に呼び出すには、endpointkey が必要です。

変数名
AZURE_OPENAI_ENDPOINT サービス エンドポイントは、Azure ポータルでリソースを確認する際に キーとエンドポイント セクションで見つけることができます。 または、Microsoft Foundry ポータルのDeploymentsページでエンドポイントを見つけることができます。 エンドポイントの例は、 https://docs-test-001.openai.azure.com/です。
AZURE_OPENAI_API_KEY この値は、Azure ポータルでリソースを調べたときに、Keys & Endpoint セクションで見つけることができます。 KEY1またはKEY2を使用できます。

Azure ポータルでリソースに移動します。 エンドポイントとキーは、[リソース管理] セクションにあります。 API 呼び出しを認証するために両方が必要になるので、エンドポイントとアクセス キーをコピーします。 KEY1またはKEY2を使用できます。 常に 2 つのキーを使用すると、サービスの中断を引き起こさずに、キーを安全にローテーションおよび再生成できます。

Azure ポータルの Azure OpenAI リソースの概要 UI のスクリーンショット。エンドポイントとアクセス キーの場所が赤で囲まれています。

環境変数

キーとエンドポイントの永続的な環境変数を作成して割り当てます。

重要

API キーは慎重に使用してください。 API キーをコードに直接含めず、パブリックに投稿しないでください。 API キーを使用する場合は、Azure Key Vaultに安全に格納します。 アプリで API キーを安全に使用する方法の詳細については、「Azure Key Vault を使用した API キー」を参照してください。

AI サービスのセキュリティの詳細については、「Authenticate requests to Azure AI サービス」を参照してください。

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"

重要

パスワードレス認証をお勧めします

パスワードレス認証の場合は、次の手順を実行する必要があります。

  1. azure-identity パッケージ (pip install azure-identity) を使用します。
  2. Cognitive Services User ロールをユーザー アカウントに割り当てます。 これは、Azure ポータルの Access 制御 (IAM)>ロールの割り当ての追加で実行できます。
  3. az login などのAzure CLIでサインインします。

Python環境を作成する

プロジェクトの新しいディレクトリを作成し、ターミナルまたはコマンド プロンプトからそこに移動します。

mkdir whisper-quickstart; cd whisper-quickstart

このプロジェクトの仮想環境を作成してアクティブ化します。

python -m venv .venv
.venv\Scripts\activate

次のコマンドを使用して OpenAI Python クライアント ライブラリをインストールします。

pip install openai

Python アプリを作成する

  1. quickstart.py という名前の新しいPython ファイルを作成>。 次に、任意のエディターまたは IDE で開きます。

  2. quickstart.py の内容を次のコードに置き換えます。 コードを変更してデプロイ名を追加します。

    import os
    from openai import AzureOpenAI
        
    client = AzureOpenAI(
        api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
        api_version="2024-02-01",
        azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    )
    
    deployment_id = "YOUR-DEPLOYMENT-NAME-HERE" #This will correspond to the custom name you chose for your deployment when you deployed a model."
    audio_test_file = "./wikipediaOcelot.wav"
    
    result = client.audio.transcriptions.create(
        file=open(audio_test_file, "rb"),            
        model=deployment_id
    )
    
    print(result)

クイック スタート ファイルで python コマンドを使用してアプリケーションを実行します。

python quickstart.py

重要

運用環境では、Azure Key Vault などのセキュリティで保護された方法を使用して、資格情報を保存およびアクセスしてください。 詳細については、「資格情報の セキュリティ」を参照してください。

出力を確認する

応答には、オーディオ ファイルの完全な文字起こしを含む text フィールドが含まれています。 次の例のような出力が表示されます。 エラーが発生した場合:

  • デプロイメント名が完全に一致することを確認してください。
  • オーディオ ファイルのパスが正しいことを確認する
  • API キーとエンドポイントが有効であることを確認する

出力

{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}

前提 条件

Microsoft Entra IDの前提条件

Microsoft Entra IDで推奨されるキーレス認証では、次の手順を実行する必要があります。

  • Microsoft Entra IDでキーレス認証を行うために使用するAzure CLIをインストールします。
  • Cognitive Services User ロールをユーザー アカウントに割り当てます。 Azure ポータルの Access コントロール (IAM)>ロールの割り当ての追加でロールを割り当てることができます。

セットアップ

  1. whisper-quickstart新しいフォルダーを作成し、次のコマンドを使用してクイック スタート フォルダーに移動します。

    mkdir whisper-quickstart && cd whisper-quickstart
    
  2. 次のコマンドを使用して、新しいコンソール アプリケーションを作成します。

    dotnet new console
    
  3. openAI .NET クライアント ライブラリdotnet add package コマンドでインストールします。

    dotnet add package Azure.AI.OpenAI
    
  4. 推奨されるMicrosoft Entra IDを使用したキーレス認証の場合は、Azure.Identityパッケージをインストールします:

    dotnet add package Azure.Identity
    
  5. recommended Microsoft Entra ID によるキーレス認証の場合は、次のコマンドを使用してAzureにサインインします。

    az login
    

リソース情報を取得する

Azure OpenAI リソースでアプリケーションを認証するには、次の情報を取得する必要があります。

変数名
AZURE_OPENAI_ENDPOINT この値は、Azure ポータルからリソースを調べるときに、Keys と Endpoint セクションにあります。
AZURE_OPENAI_DEPLOYMENT_NAME この値は、モデルのデプロイ時にデプロイに選択したカスタム名に対応します。 この値は、Azure ポータルの Resource Management>Model Deployments にあります。

キーレス認証環境変数の設定の詳細について説明します。

クイック スタートを実行する

このクイック スタートのサンプル コードでは、推奨されるキーレス認証にMicrosoft Entra IDを使用します。 API キーを使用する場合は、 DefaultAzureCredential オブジェクトを AzureKeyCredential オブジェクトに置き換えることができます。

AzureOpenAIClient openAIClient = new AzureOpenAIClient(new Uri(endpoint), new DefaultAzureCredential()); 

メモ

wikipediaOcelot.wav などのサンプル オーディオ ファイルは、foundry Tools SDK リポジトリの Azure Speech GitHub から取得できます。

クイック スタートを実行するには、次の手順に従います。

  1. Program.csの内容を次のコードに置き換え、プレースホルダーの値を独自の値に更新します。

    using Azure;
    using Azure.AI.OpenAI;
    using Azure.Identity; // Required for Passwordless auth
    
    
    string deploymentName = "whisper";
    
    string endpoint = Environment.GetEnvironmentVariable("AZURE_OPENAI_ENDPOINT") ?? "https://<your-resource-name>.openai.azure.com/";
    string key = Environment.GetEnvironmentVariable("AZURE_OPENAI_API_KEY") ?? "<your-key>";
    
    // Use the recommended keyless credential instead of the AzureKeyCredential credential.
    AzureOpenAIClient openAIClient = new AzureOpenAIClient(new Uri(endpoint), new DefaultAzureCredential()); 
    //AzureOpenAIClient openAIClient = new AzureOpenAIClient(new Uri(endpoint), new AzureKeyCredential(key));
    
    var audioFilePath = "<audio file path>"
    
    var audioClient = openAIClient.GetAudioClient(deploymentName);
    
    var result = await audioClient.TranscribeAudioAsync(audioFilePath);
    
    Console.WriteLine("Transcribed text:");
    foreach (var item in result.Value.Text)
    {
        Console.Write(item);
    }
    
  2. dotnet run コマンドまたはVisual Studioの上部にある実行ボタンを使用して、アプリケーションを実行します。

    dotnet run
    

出力を確認する

文字起こしは、オーディオ ファイルの完全な文字起こしを含む Text プロパティを持つ応答を返します。 次の例のような出力が表示されます。 エラーが発生した場合:

  • デプロイメント名が完全に一致することを確認してください。
  • オーディオ ファイルのパスが正しいことを確認する
  • API キーとエンドポイントが有効であることを確認する

出力

サンプル オーディオ ファイルを使用している場合は、コンソールに次のテキストが出力されます。

The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, 
Mexico, and Central and South America. This medium-sized cat is characterized by solid 
black spots and streaks on its coat, round ears...

ソース コード | パッケージ (npm) | サンプル

前提 条件

Microsoft Entra IDの前提条件

Microsoft Entra IDで推奨されるキーレス認証では、次の手順を実行する必要があります。

  • Microsoft Entra IDでキーレス認証を行うために使用するAzure CLIをインストールします。
  • Cognitive Services User ロールをユーザー アカウントに割り当てます。 Azure ポータルの Access コントロール (IAM)>ロールの割り当ての追加でロールを割り当てることができます。

セットアップ

  1. synthesis-quickstart新しいフォルダーを作成し、次のコマンドを使用してクイック スタート フォルダーに移動します。

    mkdir synthesis-quickstart && cd synthesis-quickstart
    
  2. 次のコマンドを使用して package.json を作成します。

    npm init -y
    
  3. 次のコマンドを使用して、JavaScript 用の OpenAI クライアント ライブラリをインストールします。

    npm install openai
    
  4. 推奨されるパスワードレス認証の場合:

    npm install @azure/identity
    

リソース情報を取得する

Azure OpenAI リソースでアプリケーションを認証するには、次の情報を取得する必要があります。

変数名
AZURE_OPENAI_ENDPOINT この値は、Azure ポータルからリソースを調べるときに、Keys と Endpoint セクションにあります。
AZURE_OPENAI_DEPLOYMENT_NAME この値は、モデルのデプロイ時にデプロイに選択したカスタム名に対応します。 この値は、Azure ポータルの Resource Management>Model Deployments にあります。

キーレス認証環境変数の設定の詳細について説明します。

注意

SDK で推奨されるキーレス認証を使用するには、 AZURE_OPENAI_API_KEY 環境変数が設定されていないことを確認します。

サンプル アプリケーションを作成する

  1. 次のコードを使用して、 index.js ファイルを作成します。

    const { createReadStream } = require("fs");
    const { AzureOpenAI } = require("openai");
    const { DefaultAzureCredential, getBearerTokenProvider } = require("@azure/identity");
    
    // You will need to set these environment variables or edit the following values
    const audioFilePath = "<audio file path>";
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "Your endpoint";
    
    // Required Azure OpenAI deployment name and API version
    const apiVersion = process.env.OPENAI_API_VERSION || "2024-08-01-preview";
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "whisper";
    
    // keyless authentication    
    const credential = new DefaultAzureCredential();
    const scope = "https://ai.azure.com/.default";
    const azureADTokenProvider = getBearerTokenProvider(credential, scope);
    
    function getClient() {
      return new AzureOpenAI({
        endpoint,
        azureADTokenProvider,
        apiVersion,
        deployment: deploymentName,
      });
    }
    
    export async function main() {
      console.log("== Transcribe Audio Sample ==");
    
      const client = getClient();
      const result = await client.audio.transcriptions.create({
        model: "",
        file: createReadStream(audioFilePath),
      });
    
      console.log(`Transcription: ${result.text}`);
    }
    
    main().catch((err) => {
      console.error("The sample encountered an error:", err);
    });
    
  2. 次のコマンドを使用して、Azureにサインインします。

    az login
    
  3. JavaScript ファイルを実行します。

    node index.js
    

wikipediaOcelot.wav などのサンプル オーディオ ファイルは、foundry Tools SDK リポジトリの Azure Speech GitHub から取得できます。

出力

{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}

ソース コード | パッケージ (npm) | サンプル

前提 条件

Microsoft Entra IDの前提条件

Microsoft Entra IDで推奨されるキーレス認証では、次の手順を実行する必要があります。

  • Microsoft Entra IDでキーレス認証を行うために使用するAzure CLIをインストールします。
  • Cognitive Services User ロールをユーザー アカウントに割り当てます。 Azure ポータルの Access コントロール (IAM)>ロールの割り当ての追加でロールを割り当てることができます。

セットアップ

  1. whisper-quickstart新しいフォルダーを作成し、次のコマンドを使用してクイック スタート フォルダーに移動します。

    mkdir whisper-quickstart && cd whisper-quickstart
    
  2. 次のコマンドを使用して package.json を作成します。

    npm init -y
    
  3. 次のコマンドを使用して、 package.json を ECMAScript に更新します。

    npm pkg set type=module
    
  4. 次のコマンドを使用して、JavaScript 用の OpenAI クライアント ライブラリをインストールします。

    npm install openai
    
  5. 推奨されるパスワードレス認証の場合:

    npm install @azure/identity
    

リソース情報を取得する

Azure OpenAI リソースでアプリケーションを認証するには、次の情報を取得する必要があります。

変数名
AZURE_OPENAI_ENDPOINT この値は、Azure ポータルからリソースを調べるときに、Keys と Endpoint セクションにあります。
AZURE_OPENAI_DEPLOYMENT_NAME この値は、モデルのデプロイ時にデプロイに選択したカスタム名に対応します。 この値は、Azure ポータルの Resource Management>Model Deployments にあります。

キーレス認証環境変数の設定の詳細について説明します。

注意

SDK で推奨されるキーレス認証を使用するには、 AZURE_OPENAI_API_KEY 環境変数が設定されていないことを確認します。

サンプル アプリケーションを作成する

  1. 次のコードを使用して、 index.ts ファイルを作成します。

    import { createReadStream } from "fs";
    import { AzureOpenAI } from "openai";
    import { DefaultAzureCredential, getBearerTokenProvider } from "@azure/identity";
    
    // You will need to set these environment variables or edit the following values
    const audioFilePath = "<audio file path>";
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "Your endpoint";
    
    // Required Azure OpenAI deployment name and API version
    const apiVersion = process.env.OPENAI_API_VERSION || "2024-08-01-preview";
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "whisper";
    
    // keyless authentication    
    const credential = new DefaultAzureCredential();
    const scope = "https://ai.azure.com/.default";
    const azureADTokenProvider = getBearerTokenProvider(credential, scope);
    
    function getClient(): AzureOpenAI {
      return new AzureOpenAI({
        endpoint,
        azureADTokenProvider,
        apiVersion,
        deployment: deploymentName,
      });
    }
    
    export async function main() {
      console.log("== Transcribe Audio Sample ==");
    
      const client = getClient();
      const result = await client.audio.transcriptions.create({
        model: "",
        file: createReadStream(audioFilePath),
      });
    
      console.log(`Transcription: ${result.text}`);
    }
    
    main().catch((err) => {
      console.error("The sample encountered an error:", err);
    });
    
  2. TypeScript コードをトランスパイルする tsconfig.json ファイルを作成し、ECMAScript の次のコードをコピーします。

    {
        "compilerOptions": {
          "module": "NodeNext",
          "target": "ES2022", // Supports top-level await
          "moduleResolution": "NodeNext",
          "skipLibCheck": true, // Avoid type errors from node_modules
          "strict": true // Enable strict type-checking options
        },
        "include": ["*.ts"]
    }
    
  3. TypeScript から JavaScript へのトランスパイル。

    tsc
    
  4. 次のコマンドを使用して、Azureにサインインします。

    az login
    
  5. 次のコマンドを使用してコードを実行します。

    node index.js
    

wikipediaOcelot.wav などのサンプル オーディオ ファイルは、foundry Tools SDK リポジトリの Azure Speech GitHub から取得できます。

重要

API キーは慎重に使用してください。 API キーをコードに直接含めず、パブリックに投稿しないでください。 API キーを使用する場合は、Azure Key Vaultに安全に格納します。 アプリで API キーを安全に使用する方法の詳細については、「Azure Key Vault を使用した API キー」を参照してください。

AI サービスのセキュリティの詳細については、「Authenticate requests to Azure AI サービス」を参照してください。

出力

{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}

前提 条件

セットアップ

キーとエンドポイントを取得する

Azure OpenAI に対して正常に呼び出すには、endpointkey が必要です。

変数名
AZURE_OPENAI_ENDPOINT サービス エンドポイントは、Azure ポータルでリソースを確認する際に キーとエンドポイント セクションで見つけることができます。 または、Microsoft Foundry ポータルのDeploymentsページでエンドポイントを見つけることができます。 エンドポイントの例は、 https://docs-test-001.openai.azure.com/です。
AZURE_OPENAI_API_KEY この値は、Azure ポータルでリソースを調べたときに、Keys & Endpoint セクションで見つけることができます。 KEY1またはKEY2を使用できます。

Azure ポータルでリソースに移動します。 エンドポイントとキーは、[リソース管理] セクションにあります。 API 呼び出しを認証するために両方が必要になるので、エンドポイントとアクセス キーをコピーします。 KEY1またはKEY2を使用できます。 常に 2 つのキーを使用すると、サービスの中断を引き起こさずに、キーを安全にローテーションおよび再生成できます。

Azure ポータルの Azure OpenAI リソースの概要 UI のスクリーンショット。エンドポイントとアクセス キーの場所が赤で囲まれています。

環境変数

キーとエンドポイントの永続的な環境変数を作成して割り当てます。

重要

API キーは慎重に使用してください。 API キーをコードに直接含めず、パブリックに投稿しないでください。 API キーを使用する場合は、Azure Key Vaultに安全に格納します。 アプリで API キーを安全に使用する方法の詳細については、「Azure Key Vault を使用した API キー」を参照してください。

AI サービスのセキュリティの詳細については、「Authenticate requests to Azure AI サービス」を参照してください。

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE" 

PowerShell アプリを作成する

次のコマンドを実行します。 YourDeploymentNameを、ささやきモデルのデプロイ時に選択したデプロイ名に置き換える必要があります。 デプロイ名は必ずしもモデル名と同じではありません。 基になるモデル名と同じデプロイ名を選択しない限り、モデル名を入力するとエラーが発生します。

# Azure OpenAI metadata variables
$openai = @{
    api_key     = $Env:AZURE_OPENAI_API_KEY
    api_base    = $Env:AZURE_OPENAI_ENDPOINT # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
    api_version = '2024-02-01' # this may change in the future
    name        = 'YourDeploymentName' #This will correspond to the custom name you chose for your deployment when you deployed a model.
}

# Header for authentication
$headers = [ordered]@{
    'api-key' = $openai.api_key
}

$form = @{ file = get-item -path './wikipediaOcelot.wav' }

# Send a completion call to generate an answer
$url = "$($openai.api_base)/openai/deployments/$($openai.name)/audio/transcriptions?api-version=$($openai.api_version)"

$response = Invoke-RestMethod -Uri $url -Headers $headers -Form $form -Method Post -ContentType 'multipart/form-data'
return $response.text

wikipediaOcelot.wav などのサンプル オーディオ ファイルは、foundry Tools SDK リポジトリの Azure Speech GitHub から取得できます。

重要

運用環境においては、 PowerShell シークレット管理 with Azure Key Vault などのセキュリティで保護された方法を用いて資格情報を保存し、アクセスする。 詳細については、「資格情報の セキュリティ」を参照してください。

出力

The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs.

メモ

Azure OpenAI で使用できるその他のオーディオ モデルについては、「Audio モデル」を参照>。

ヒント

ささやきモデルのファイル サイズの制限は 25 MB です。 25 MB を超えるファイルを文字起こしする必要がある場合は、Foundry Tools の Azure Speech バッチ文字起こし API を使用できます。

トラブルシューティング

認証エラー

401 未承認エラーが発生した場合は、次のことを確認します。

  • API キーが環境変数で正しく設定されている
  • Azure OpenAI リソースがアクティブである
  • あなたのアカウントには Cognitive Services 寄与者ロールがあります

ファイル形式のエラー

ささやきモデルは、mp3、mp4、mpeg、mpga、m4a、wav、および webm 形式をサポートしています。 その他の形式ではエラーが返されます。

ファイル サイズの制限

オーディオ ファイルは 25 MB 以下である必要があります。 大きなファイルの場合は、Azure Speech バッチ文字起こし API を使用します。

デプロイが見つかりません

デプロイ名が、Azure OpenAI Studio で作成したものと正確に一致するかどうかを確認します。 デプロイ名では大文字と小文字が区別されます。

リソースのクリーンアップ

Azure OpenAI リソースをクリーンアップして削除する場合は、リソースを削除できます。 リソースを削除する前に、まずデプロイされたモデルを削除する必要があります。

次の手順