Automatizzare le attività del browser con lo strumento di automazione browser (anteprima)

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Questo articolo illustra come configurare e usare lo strumento di automazione browser con gli agenti Foundry per automatizzare i flussi di lavoro di esplorazione Web.

Avviso

Lo strumento di automazione browser presenta rischi significativi per la sicurezza. Sia gli errori di giudizio dell'IA sia la presenza di istruzioni dannose o confuse nelle pagine Web che l'IA incontra possono causare l'esecuzione di comandi non voluti da te o da altri. Queste azioni possono compromettere la sicurezza dei browser, dei computer e degli account a cui il browser o l'intelligenza artificiale hanno accesso, inclusi sistemi personali, finanziari o aziendali. Usando lo strumento di automazione del browser, si riconosce che l'utente si assume la responsabilità per qualsiasi utilizzo di esso e di qualsiasi agente creato di conseguenza. Questa responsabilità si estende a qualsiasi altro utente a cui si rende disponibile la funzionalità dello strumento di automazione browser, inclusi gli agenti risultanti. Usare lo strumento di automazione browser in macchine virtuali con privilegi limitati senza accesso a dati sensibili o risorse critiche.

Per indicazioni sull'ottimizzazione dell'utilizzo degli strumenti, vedere Best practices for using tools in Microsoft Foundry Agent Service.

In Microsoft Foundry, lo strumento di automazione del browser consente all'agente basato su modello Foundry di eseguire attività del browser reali tramite prompt del linguaggio naturale. Quando viene usato con il servizio agente Foundry, crea sessioni del browser isolate nell'area di lavoro Playwright di cui è stato effettuato il provisioning.

Usando Microsoft Spazi di lavoro Playwright, è possibile automatizzare flussi di lavoro basati su browser, ad esempio la ricerca, lo spostamento, la compilazione di moduli e la prenotazione.

Supporto per l'utilizzo

La tabella seguente illustra il supporto dell'SDK e della configurazione.

Supporto Foundry di Microsoft	PYTHON SDK	C# SDK	JavaScript SDK	JAVA SDK	REST API	Configurazione dell'agente di base	Configurazione dell'agente standard
✔️	✔️	✔️	✔️	✔️	✔️	✔️	✔️

Come funziona

L'interazione inizia quando l'utente invia una query a un agente connesso allo strumento di automazione browser. Ad esempio, "Mostrami tutte le lezioni di yoga disponibili questa settimana dall'URL <url> seguente." Quando l'agente riceve la richiesta, Foundry Agent Service crea una sessione del browser isolata usando l'area di lavoro Playwright configurata. Ogni sessione è in modalità sandbox per privacy e sicurezza.

Il browser esegue azioni guidate da Playwright, ad esempio lo spostamento alle pagine pertinenti e l'applicazione di filtri o parametri in base alle preferenze dell'utente (ad esempio tempo, posizione e insegnante). Combinando il modello con Playwright, il modello può analizzare html o XML in documenti DOM, prendere decisioni ed eseguire azioni come la selezione di elementi dell'interfaccia utente, la digitazione e lo spostamento nei siti Web. Prestare attenzione quando si usa questo strumento.

Un flusso di esempio è:

Un utente invia una richiesta al modello che include una chiamata allo strumento di automazione browser con l'URL a cui si vuole accedere.
Lo strumento Di automazione browser riceve una risposta dal modello. Se la risposta contiene elementi di azione, tali elementi contengono azioni suggerite per avanzare verso l'obiettivo specificato. Ad esempio, un'azione potrebbe essere uno screenshot in modo che il modello possa valutare lo stato corrente con uno screenshot aggiornato o fare clic con coordinate X/Y che indicano dove deve essere spostato il mouse.
Lo strumento Automazione browser esegue l'azione in un ambiente in modalità sandbox.
Dopo l'esecuzione dell'azione, lo strumento automazione browser acquisisce lo stato aggiornato dell'ambiente come screenshot.
Lo strumento invia una nuova richiesta con lo stato aggiornato e ripete questo ciclo fino a quando il modello smette di richiedere azioni o l'utente decide di arrestarsi.

Lo strumento di automazione browser supporta le conversazioni a più turni, consentendo all'utente di perfezionare la richiesta e completare una prenotazione.

Prerequisiti

Prima di iniziare, assicurarsi di avere:

Sottoscrizione Azure. Crearne uno gratuitamente.
Ruolo collaboratore o proprietario in un gruppo di risorse.
Progetto Foundry con un endpoint configurato.
Un modello di intelligenza artificiale distribuito nel progetto , ad esempio gpt-4o.
Risorsa dell'area di lavoro Playwright.
Una connessione di progetto configurata per l'area di lavoro di Playwright.

Requisiti dell'SDK

Per gli esempi in Python, installare i pacchetti necessari:

pip install "azure-ai-projects>=2.0.0"

L'SDK di .NET è attualmente in anteprima. Per altre informazioni, vedere la guida introduttiva.

Configurazione

Ottieni l'endpoint del progetto: Apri il progetto nel portale Foundry e copia l'endpoint dalla pagina di panoramica del progetto. Il formato è https://{account-name}.services.ai.azure.com/api/projects/{project-name}.

Formato ID connessione: usare /subscriptions/{{subscriptionID}}/resourceGroups/{{resourceGroupName}}/providers/Microsoft.CognitiveServices/accounts/{{foundryAccountName}}/projects/{{foundryProjectName}}/connections/{{foundryConnectionName}}. È possibile trovare questo valore nella pagina dei dettagli dello strumento dopo aver connesso lo strumento di automazione browser.

Configurare Automazione Browser

Passaggio 1: Creare un'area di lavoro Playwright

Nel portale Azure creare una risorsa Playwright Workspace.
Dopo aver creato l'area di lavoro, passare a Impostazioni>Gestione accesso.
Verificare che il metodo di autenticazione del token di accesso al servizio Playwright sia abilitato.
Selezionare Genera token, immettere un nome ,ad esempio foundry-connection, e scegliere un periodo di scadenza.
Copiare immediatamente il token. Non è possibile visualizzarla di nuovo dopo aver chiuso la pagina.
Nella pagina Panoramica dell'area di lavoro copiare l'endpoint del browser (inizia con wss://).
Assegnare all'identità del progetto un ruolo Collaboratore nella risorsa dell'area di lavoro Playwright o configurare un ruolo personalizzato.

Passaggio 2: Connettere lo strumento Browser Automation in Foundry

Passare al portale Foundry e selezionare il progetto.
Selezionare Strumenti di compilazione>.
Selezionare Connetti uno strumento.
Nella scheda Configurato selezionare Automazione browser, quindi selezionare Aggiungi strumento.
Compilare i campi obbligatori:
- Nome: nome univoco per la connessione.
- Endpoint dell'area di lavoro Playwright: incollare l'endpoint wss:// copiato.
- Token di accesso: incollare il token di accesso generato.
Selezionare Connetti.

Dopo aver creato la connessione, è possibile visualizzare l'ID connessione Project nella pagina dei dettagli dello strumento. Utilizzare questo valore come ID di connessione per l'automazione del browser nel codice.

Esempio di codice

Dopo aver eseguito un esempio, verificare che lo strumento sia stato chiamato usando il tracciamento in Microsoft Foundry. Per indicazioni sulla convalida dell'invocazione dello strumento, vedere Migliori pratiche per l'uso di strumenti nel servizio Microsoft Foundry Agent. Se si usa lo streaming, è anche possibile cercare browser_automation_preview_call gli eventi.

Nota

L'SDK di .NET è attualmente in anteprima. Per altre informazioni, vedere la guida introduttiva.
Questo articolo presuppone che sia già stata creata la connessione all'area di lavoro Playwright. Vedere la sezione prerequisiti.

Usare il BrowserAutomationAgentTool con esempi di agenti

L'esempio di Python seguente illustra come creare un agente di intelligenza artificiale con funzionalità di automazione del browser usando il client del progetto BrowserAutomationAgentTool e il client sincrono di Azure AI Projects. L'agente può passare ai siti Web, interagire con gli elementi Web ed eseguire attività come la ricerca di prezzi azionari.

import json
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
from azure.ai.projects.models import (
    PromptAgentDefinition,
    BrowserAutomationPreviewTool,
    BrowserAutomationToolParameters,
    BrowserAutomationToolConnectionParameters,
)

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"
BROWSER_CONNECTION_ID = "your-browser-automation-connection-id"

# Create clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

tool = BrowserAutomationPreviewTool(
    browser_automation_preview=BrowserAutomationToolParameters(
        connection=BrowserAutomationToolConnectionParameters(
            project_connection_id=BROWSER_CONNECTION_ID,
        )
    )
)

agent = project.agents.create_version(
    agent_name="MyAgent",
    definition=PromptAgentDefinition(
        model="gpt-4.1-mini",
        instructions="""You are an Agent helping with browser automation tasks. 
        You can answer questions, provide information, and assist with various tasks 
        related to web browsing using the Browser Automation tool available to you.""",
        tools=[tool],
    ),
)
print(f"Agent created (id: {agent.id}, name: {agent.name}, version: {agent.version})")

stream_response = openai.responses.create(
    stream=True,
    tool_choice="required",
    input="""
        Your goal is to report the percent of Microsoft year-to-date stock price change.
        To do that, go to the website finance.yahoo.com.
        At the top of the page, you will find a search bar.
        Enter the value 'MSFT', to get information about the Microsoft stock price.
        At the top of the resulting page you will see a default chart of Microsoft stock price.
        Click on 'YTD' at the top of that chart, and report the percent value that shows up just below it.""",
    extra_body={"agent_reference": {"name": agent.name, "type": "agent_reference"}},
)

for event in stream_response:
    if event.type == "response.created":
        print(f"Follow-up response created with ID: {event.response.id}")
    elif event.type == "response.output_text.delta":
        print(f"Delta: {event.delta}")
    elif event.type == "response.text.done":
        print(f"\nFollow-up response done!")
    elif event.type == "response.output_item.done":
        item = event.item
        if item.type == "browser_automation_preview_call":
            arguments_str = getattr(item, "arguments", "{}")

            # Parse the arguments string into a dictionary
            arguments = json.loads(arguments_str)
            query = arguments.get("query")

            print(f"Call ID: {getattr(item, 'call_id')}")
            print(f"Query arguments: {query}")
    elif event.type == "response.completed":
        print(f"\nFollow-up completed!")
        print(f"Full response: {event.response.output_text}")

print("\nCleaning up...")
project.agents.delete_version(agent_name=agent.name, agent_version=agent.version)
print("Agent deleted")

Che cosa fa questo codice

In questo esempio viene creata una versione dell'agente con lo strumento di automazione browser abilitata, quindi viene inviata una richiesta che richiede all'agente di usare lo strumento. Elabora anche gli eventi di streaming in modo da poter osservare lo stato di avanzamento e le chiamate degli strumenti.

Input necessari

Un endpoint del progetto Foundry e un ID connessione di automazione del browser. Per informazioni dettagliate, vedere Configurazione .

Output previsto

Quando si crea l'agente, viene visualizzato un output simile al seguente:

Agent created (id: ..., name: ..., version: ...)

Durante lo streaming, è anche possibile visualizzare i delta e i dettagli delle chiamate agli strumenti. L'output varia in base al contenuto del sito Web e al comportamento del modello.

Utilizzare BrowserAutomationPreviewTool con un esempio di utilizzo degli agenti

Prima di eseguire questo esempio, completare i passaggi di installazione in Configurare Automazione browser.

L'esempio C# seguente illustra come creare un agente di intelligenza artificiale con funzionalità di automazione browser usando il client BrowserAutomationPreviewTool e sincrono Azure ai progetti di intelligenza artificiale. L'agente può passare ai siti Web, interagire con gli elementi Web ed eseguire attività come la ricerca di prezzi azionari. Nell'esempio viene usato il modello di programmazione sincrono per semplicità. Per una versione asincrona, vedere l'esempio relativo all'uso di BrowserAutomationPreviewTool e degli Agent nella repository del Azure SDK per .NET su GitHub.

using System;
using Azure.AI.Projects;
using Azure.AI.Extensions.OpenAI;
using Azure.Identity;

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
var projectEndpoint = "your_project_endpoint";
var browserConnectionId = "your-browser-automation-connection-id";

// Note that Browser automation operations can take longer than usual
// and require the request timeout to be at least 5 minutes.
AIProjectClientOptions options = new()
{
    NetworkTimeout = TimeSpan.FromMinutes(5)
};
AIProjectClient projectClient = new(endpoint: new Uri(projectEndpoint), tokenProvider: new DefaultAzureCredential(), options: options);

// Create the Browser Automation tool using the Playwright connection.
BrowserAutomationPreviewTool playwrightTool = new(
    new BrowserAutomationToolParameters(
    new BrowserAutomationToolConnectionParameters(browserConnectionId)
    ));

// Create the Agent version with the Browser Automation tool.
DeclarativeAgentDefinition agentDefinition = new(model: "gpt-4.1-mini")
{
    Instructions = "You are an Agent helping with browser automation tasks.\n" +
    "You can answer questions, provide information, and assist with various tasks\n" +
    "related to web browsing using the Browser Automation tool available to you.",
    Tools = { playwrightTool }
};
AgentVersion agentVersion = projectClient.AgentAdministrationClient.CreateAgentVersion(
    agentName: "myAgent",
    options: new(agentDefinition));

// Create the response stream. Also set ToolChoice = ResponseToolChoice.CreateRequiredChoice()
// on the ResponseCreationOptions to ensure the agent uses the Browser Automation tool.
ProjectResponsesClient responseClient = projectClient.ProjectOpenAIClient.GetProjectResponsesClientForAgent(agentVersion.Name);
CreateResponseOptions responseOptions = new()
{
    ToolChoice = ResponseToolChoice.CreateRequiredChoice(),
    StreamingEnabled = true,
    InputItems =
    {
        ResponseItem.CreateUserMessageItem("Your goal is to report the percent of Microsoft year-to-date stock price change.\n" +
            "To do that, go to the website finance.yahoo.com.\n" +
            "At the top of the page, you will find a search bar.\n" +
            "Enter the value 'MSFT', to get information about the Microsoft stock price.\n" +
            "At the top of the resulting page you will see a default chart of Microsoft stock price.\n" +
            "Click on 'YTD' at the top of that chart, and report the percent value that shows up just below it.")
    }
};
foreach (StreamingResponseUpdate update in responseClient.CreateResponseStreaming(options: responseOptions))
{
    if (update is StreamingResponseCreatedUpdate createUpdate)
    {
        Console.WriteLine($"Stream response created with ID: {createUpdate.Response.Id}");
    }
    else if (update is StreamingResponseOutputTextDeltaUpdate textDelta)
    {
        Console.WriteLine($"Delta: {textDelta.Delta}");
    }
    else if (update is StreamingResponseOutputTextDoneUpdate textDoneUpdate)
    {
        Console.WriteLine($"Response done with full message: {textDoneUpdate.Text}");
    }
    else if (update is StreamingResponseErrorUpdate errorUpdate)
    {
        throw new InvalidOperationException($"The stream has failed with the error: {errorUpdate.Message}");
    }
}

// Delete the Agent version to clean up resources.
projectClient.AgentAdministrationClient.DeleteAgentVersion(agentName: agentVersion.Name, agentVersion: agentVersion.Version);

Che cosa fa questo codice

Questo esempio crea una versione dell'agente con lo strumento di automazione browser abilitata, invia un prompt che richiede l'utilizzo dello strumento e stampa gli aggiornamenti di streaming mentre l'agente funziona tramite i passaggi del browser.

Input necessari

Un endpoint del progetto Foundry e un ID connessione di automazione del browser. Per informazioni dettagliate, vedere Configurazione .
Una connessione Playwright creata nel progetto Foundry.

Output previsto

Vengono visualizzati messaggi di stato di streaming, ad esempio delta di testo, e una risposta completata. L'output varia in base al contenuto del sito Web e al comportamento del modello.

Ottenere un token di accesso:

export AGENT_TOKEN=$(az account get-access-token --scope "https://ai.azure.com/.default" --query accessToken -o tsv)

L'esempio cURL seguente illustra come creare un agente con lo strumento di automazione browser ed eseguire attività di esplorazione Web usando l'API REST.

curl --request POST \
  --url "${FOUNDRY_PROJECT_ENDPOINT}/openai/v1/responses" \
  --header "Authorization: Bearer ${AGENT_TOKEN}" \
  --header "Content-Type: application/json" \
  --header "User-Agent: insomnia/11.6.1" \
  --data @- <<JSON
{
  "model": "${FOUNDRY_MODEL_DEPLOYMENT_NAME}",
  "input": [
    {
      "role": "user",
      "content": [
        {
          "type": "input_text",
          "text": "Your goal is to report the percent of Microsoft year-to-date stock price change."
        },
        {
          "type": "input_text",
          "text": "Go to finance.yahoo.com, search for MSFT, select YTD on the chart, and report the percent value shown."
        }
      ]
    }
  ],
  "tools": [
    {
      "type": "browser_automation_preview",
      "browser_automation_preview": {
        "connection": {
          "project_connection_id": "${BROWSER_AUTOMATION_PROJECT_CONNECTION_ID}"
        }
      }
    }
  ]
}
JSON

Usare lo strumento di automazione del browser con un esempio di agenti

L'esempio TypeScript seguente illustra come creare un agente con lo strumento di automazione browser, eseguire attività di esplorazione Web ed elaborare le risposte di streaming con eventi di automazione del browser. Per una versione JavaScript di questo esempio, vedere l'esempio JavaScript per lo strumento di automazione del browser nel repository Azure SDK per JavaScript in GitHub.

import { DefaultAzureCredential } from "@azure/identity";
import { AIProjectClient } from "@azure/ai-projects";

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
const PROJECT_ENDPOINT = "your_project_endpoint";
const BROWSER_CONNECTION_ID = "your-browser-automation-connection-id";

const handleBrowserCall = (item: any) => {
  // TODO: support browser_automation_preview_call schema
  const callId = item.call_id;
  const argumentsStr = item.arguments;

  // Parse the arguments string into a dictionary
  let query = null;
  if (argumentsStr && typeof argumentsStr === "string") {
    try {
      const argumentsObj = JSON.parse(argumentsStr);
      query = argumentsObj.query;
    } catch (e) {
      console.error("Failed to parse arguments:", e);
    }
  }

  console.log(`Call ID: ${callId ?? "None"}`);
  console.log(`Query arguments: ${query ?? "None"}`);
};

export async function main(): Promise<void> {
  // Create clients to call Foundry API
  const project = new AIProjectClient(PROJECT_ENDPOINT, new DefaultAzureCredential());
  const openai = project.getOpenAIClient();

  console.log("Creating agent with Browser Automation tool...");

  const agent = await project.agents.createVersion("MyAgent", {
    kind: "prompt",
    model: "gpt-4.1-mini",
    instructions: `You are an Agent helping with browser automation tasks. 
            You can answer questions, provide information, and assist with various tasks 
            related to web browsing using the Browser Automation tool available to you.`,
    // Define Browser Automation tool
    tools: [
      {
        type: "browser_automation_preview",
        browser_automation_preview: {
          connection: {
            project_connection_id: BROWSER_CONNECTION_ID,
          },
        },
      },
    ],
  });
  console.log(`Agent created (id: ${agent.id}, name: ${agent.name}, version: ${agent.version})`);

  console.log("\nSending browser automation request with streaming...");
  const streamResponse = await openai.responses.create(
    {
      input: `Your goal is to report the percent of Microsoft year-to-date stock price change.
            To do that, go to the website finance.yahoo.com.
            At the top of the page, you will find a search bar.
            Enter the value 'MSFT', to get information about the Microsoft stock price.
            At the top of the resulting page you will see a default chart of Microsoft stock price.
            Click on 'YTD' at the top of that chart, and report the percent value that shows up just below it.`,
      stream: true,
    },
    {
      body: {
        agent: { name: agent.name, type: "agent_reference" },
        tool_choice: "required",
      },
    },
  );

  // Process the streaming response
  for await (const event of streamResponse) {
    if (event.type === "response.created") {
      console.log(`Follow-up response created with ID: ${event.response.id}`);
    } else if (event.type === "response.output_text.delta") {
      process.stdout.write(event.delta);
    } else if (event.type === "response.output_text.done") {
      console.log("\n\nFollow-up response done!");
    } else if (
      event.type === "response.output_item.done" ||
      event.type === "response.output_item.added"
    ) {
      const item = event.item as any;
      if (item.type === "browser_automation_preview_call") {
        handleBrowserCall(item);
      }
    } else if (event.type === "response.completed") {
      console.log("\nFollow-up completed!");
    }
  }

  // Clean up resources by deleting the agent version
  // This prevents accumulation of unused resources in your project
  console.log("\nCleaning up resources...");
  await project.agents.deleteVersion(agent.name, agent.version);
  console.log("Agent deleted");

  console.log("\nBrowser Automation sample completed!");
}

main().catch((err) => {
  console.error("The sample encountered an error:", err);
});

Che cosa fa questo codice

Questo esempio crea una versione dell'agente con lo strumento di automazione browser abilitata, invia un prompt che richiede l'utilizzo dello strumento ed elabora gli eventi di streaming, inclusi gli eventi di chiamata di automazione del browser, al loro arrivo.

Input necessari

Un endpoint del progetto Foundry e un ID connessione di automazione del browser. Per informazioni dettagliate, vedere Configurazione .

Output previsto

Viene visualizzato un "Agente creato..." messaggio, output di testo in streaming e, facoltativamente, dettagli delle chiamate del browser quando viene richiamato lo strumento. L'output varia in base al contenuto del sito Web e al comportamento del modello.

Usare l'automazione del browser grazie a un agente Java

Aggiungi la dipendenza a pom.xml:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-agents</artifactId>
    <version>2.0.0</version>
</dependency>

Creare un agente con l'automazione del browser

import com.azure.ai.agents.AgentsClient;
import com.azure.ai.agents.AgentsClientBuilder;
import com.azure.ai.agents.ResponsesClient;
import com.azure.ai.agents.models.*;
import com.azure.identity.DefaultAzureCredentialBuilder;
import com.openai.models.responses.Response;
import com.openai.models.responses.ResponseCreateParams;

import java.util.Collections;

public class BrowserAutomationExample {
    public static void main(String[] args) {
        // Format: "https://resource_name.ai.azure.com/api/projects/project_name"
        String projectEndpoint = "your_project_endpoint";
        String browserConnectionId = "your-browser-automation-connection-id";

        AgentsClientBuilder builder = new AgentsClientBuilder()
            .credential(new DefaultAzureCredentialBuilder().build())
            .endpoint(projectEndpoint);

        AgentsClient agentsClient = builder.buildAgentsClient();
        ResponsesClient responsesClient = builder.buildResponsesClient();

        // Create browser automation tool with connection configuration
        BrowserAutomationPreviewTool browserTool = new BrowserAutomationPreviewTool(
            new BrowserAutomationToolParameters(
                new BrowserAutomationToolConnectionParameters(browserConnectionId)
            )
        );

        // Create agent with browser automation tool
        PromptAgentDefinition agentDefinition = new PromptAgentDefinition("gpt-4.1-mini")
            .setInstructions("You are a helpful assistant that can interact with web pages.")
            .setTools(Collections.singletonList(browserTool));

        AgentVersionDetails agent = agentsClient.createAgentVersion("browser-agent", agentDefinition);
        System.out.printf("Agent created: %s (version %s)%n", agent.getName(), agent.getVersion());

        // Create a response
        AgentReference agentReference = new AgentReference(agent.getName())
            .setVersion(agent.getVersion());

        Response response = responsesClient.createAzureResponse(
            new AzureCreateResponseOptions().setAgentReference(agentReference),
            ResponseCreateParams.builder()
                .input("Navigate to microsoft.com and summarize the main content"));

        System.out.println("Response: " + response.output());

        // Clean up
        agentsClient.deleteAgentVersion(agent.getName(), agent.getVersion());
    }
}

Limitazioni

Solo siti attendibili: usare questo strumento solo con i siti considerati attendibili. Evitare pagine che richiedono credenziali, pagamenti o altre azioni sensibili.
Volatilità delle pagine: le pagine Web possono cambiare in qualsiasi momento. L'agente potrebbe fallire se il layout della pagina, le etichette o i flussi di navigazione cambiano. Incorporare la gestione degli errori nei flussi di lavoro.
Applicazioni complesse a pagina singola con JavaScript: le SPA con contenuto dinamico potrebbero non essere gestite correttamente.

Considerazioni sul costo

Questo strumento usa una risorsa area di lavoro Playwright per eseguire sessioni del browser. Per informazioni sui prezzi e sull'utilizzo, vedere la documentazione dell'area di lavoro Playwright.

Risoluzione dei problemi

L'agente non usa lo strumento

Verificare di aver creato l'agente con lo strumento di automazione browser abilitato.
Nella richiesta richiedere l'utilizzo dello strumento (ad esempio, tool_choice="required").
Usare la traccia in Microsoft Foundry per verificare se si è verificata una chiamata allo strumento. Per indicazioni, vedere le migliori pratiche per l'uso degli strumenti nel servizio agenti di Microsoft Foundry.

Errori di connessione o autorizzazione

Confermare che l'ID di connessione per l'automazione del browser corrisponda all'ID di risorsa di connessione dell'area di lavoro Playwright nel progetto.
Verificare che l'identità del progetto abbia accesso alla risorsa dell'area di lavoro Playwright.
Se di recente è stato ruotato il token di accesso Playwright, aggiornare la chiave di connessione del progetto Foundry.

errori Python SDK

Area di lavoro non trovata: verificare che l'endpoint del progetto usi il formato corretto: https://{account-name}.services.ai.azure.com/api/projects/{project-name}. Non utilizzare il formato di endpoint legacy di Azure ML.
Errori imprevisti relativi agli argomenti delle parole chiave: assicurarsi di usare la versione più recente di azure-ai-projects. Eseguire pip install "azure-ai-projects>=2.0.0" --upgrade per eseguire l'aggiornamento.
Errori di importazione: installare tutti i pacchetti necessari: pip install "azure-ai-projects>=2.0.0".

Timeout delle richieste

L'automazione del browser può richiedere più tempo rispetto alle richieste tipiche.

Aumentare il timeout del client (l'esempio C# imposta un timeout di 5 minuti).
Ridurre l'ambito del prompt( ad esempio, meno pagine e meno interazioni).

Eseguire la pulizia

Eliminare la versione dell'agente creata per il test.
Revocare o ruotare il token di accesso Playwright se non è più necessario.
Rimuovere la connessione al progetto se non è più necessaria. Per altre informazioni, vedere Aggiungi una connessione in Microsoft Foundry.

Scenari di esempio

Prenotazione e prenotazioni: automatizzare la compilazione del modulo e pianificare la conferma nei portali di prenotazione.
Individuazione dei prodotti: esplorare siti di e-commerce o di revisione, cercare in base ai criteri ed estrarre riepiloghi.

Nota sulla trasparenza

Esaminare la nota sulla trasparenza quando si usa questo strumento. Lo strumento di automazione browser è uno strumento in grado di eseguire attività del browser reali tramite prompt in linguaggio naturale, abilitando attività di esplorazione automatizzate senza intervento umano.

Esaminare le considerazioni sull'intelligenza artificiale responsabile quando si usa questo strumento.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-29

Automatizzare le attività del browser con lo strumento di automazione browser (anteprima)

Supporto per l'utilizzo

Come funziona

Prerequisiti

Requisiti dell'SDK

Configurazione

Configurare Automazione Browser

Passaggio 1: Creare un'area di lavoro Playwright

Passaggio 2: Connettere lo strumento Browser Automation in Foundry

Esempio di codice

Usare il BrowserAutomationAgentTool con esempi di agenti

Che cosa fa questo codice

Input necessari

Output previsto

Utilizzare BrowserAutomationPreviewTool con un esempio di utilizzo degli agenti

Che cosa fa questo codice

Input necessari

Output previsto

Usare lo strumento di automazione del browser con un esempio di agenti

Che cosa fa questo codice

Input necessari

Output previsto

Usare l'automazione del browser grazie a un agente Java

Creare un agente con l'automazione del browser

Limitazioni

Considerazioni sul costo

Risoluzione dei problemi

L'agente non usa lo strumento

Errori di connessione o autorizzazione

errori Python SDK

Timeout delle richieste

Eseguire la pulizia

Scenari di esempio

Nota sulla trasparenza

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive