Referência ao servidor MCP do Windows 365 para Agentes (prévia)

Important

  • Esta é uma funcionalidade de pré-visualização.
  • As versões prévias do recurso não foram criadas para uso em ambientes de produção e podem ter funcionalidade restrita. Esses recursos estão sujeitos a termos de uso complementares e estão disponíveis antes do lançamento oficial, de maneira que os clientes possam obter acesso antecipado e fazer comentários.

Windows 365 for Agents é um servidor MCP que te dá controle operacional total de um PC em nuvem com Windows 365. Use esse servidor MCP para conduzir um ambiente Windows real por meio de interação com desktop (mouse, teclado, captura de tela, execução de comandos), automação do navegador via Microsoft Edge e inspeção semântica da interface via Windows Automação da Interface do Usuário.

Note

  • Conexões existentes que utilizam versões anteriores dos servidores MCP da Microsoft continuam suportadas.
  • Para todas as novas conexões, use o servidor MCP mais recente do Windows 365 Agents, que expõe ferramentas em áreas de trabalho, navegador e acessibilidade.
  • A automação do navegador funciona no Microsoft Edge. O Edge inicia automaticamente na primeira chamada de ferramenta do navegador. focus_browser também pode ser direcionado ao Chrome ou Firefox, mas ferramentas de navegador em nível DOM só funcionam na instância do Edge.

Para saber mais sobre Windows 365 para Agentes, veja Windows 365 para documentação de Agentes.

Overview

Server ID Tenant-level URL Display name Description
mcp_W365AServer https://agent365.svc.cloud.microsoft/
agents/tenants/{tenantId}/
servers/mcp_W365AServer
Windows 365 para Agentes servidor MCP Controle operacional total de um PC em nuvem com Windows 365, incluindo interação com desktop, automação do navegador e inspeção da interface.

Available tools

mcp_desktop_move_mouse

Mova o cursor para a posição da tela. Use mcp_desktop_click em vez disso se pretende clicar no destino. Required parameters:

  • x: Coordenada X em pixels da tela
  • y: Coordenada Y nos pixels da tela

mcp_desktop_click

Clique em uma posição, ou na posição atual do cursor se as coordenadas forem omitidas. Suporta clique, duplo clique e todos os cinco botões do mouse.

Optional parameters:

  • x: Coordenada X nos pixels da tela (omita a posição atual)
  • y: Coordenada Y nos pixels da tela (omita a posição atual)
  • botão: Esquerda, Direita, Meio, Frente ou Trás (padrão Esquerda)
  • Contagem de cliques: 1 = clique simples, 2 = clique duplo (padrão 1)

mcp_desktop_get_cursor_position

Retorne as coordenadas atuais do cursor. No parameters. Retorna {cursorX, cursorY}.

mcp_desktop_drag_mouse

Arraste de uma posição para outra. Útil para mover objetos, redimensionar janelas ou rolar com precisão de pixel. Required parameters:

  • startX: Coordenada Start X.
  • startY: Coordenada Start Y.
  • endX: Coordenada do fim X.
  • endY: Coordenada end Y. Optional parameters:
  • botão: Esquerda, Direita ou Meio (o padrão é Esquerda)

mcp_desktop_scroll

Desloce em uma posição usando unidades de entalhe, não pixels. Três entalhes correspondem aproximadamente a uma página.

Required parameters:

  • x: Posição de rolo X
  • y: Posição de rolagem Y

Optional parameters:

  • deltaX: Entalhes horizontais, positivo = direito (padrão 0)
  • deltaY: Entalhes verticais, positivo = baixo (padrão 0)

Note

Os valores são fixados na faixa [-20, 20].

mcp_desktop_type_text

Digite texto simulando entrada do teclado. Para atalhos de teclado, use mcp_desktop_press_keys. Para campos de formulário web, use mcp_browser_type.

Required parameters:

  • texto: Texto para digitar.

mcp_desktop_press_keys

Pressione uma combinação de teclas simultaneamente. Suporta teclas modificadoras, teclas de função e teclas padrão.

Required parameters:

  • chaves: Array de nomes de chaves para pressionar juntos (por exemplo, ["ctrl","c"], ["alt","tab"], ["ctrl","shift","s"])

mcp_desktop_take_screenshot

Capture a tela cheia ou uma região recortada como uma imagem PNG (codificada base64).

Optional parameters:

  • x: Região de cultivo da borda esquerda
  • y: Região de cultivo na borda superior
  • largura: Largura da região de cultivo
  • altura: Altura da região de cultivo

Note

Forneça os quatro parâmetros de corte juntos, ou omita os quatro para uma captura em tela cheia.

mcp_desktop_zoom_region

Captura uma região da tela em resolução nativa como uma imagem PNG (codificada base64). Use esse recurso para inspecionar textos pequenos ou elementos densos da interface que são difíceis de ler em uma captura de tela cheia reduzida.

Required parameters:

  • x: Coordenada X da borda esquerda nos pixels da tela
  • y: Coordenada Y na borda superior nos pixels da tela
  • largura: Largura da região em pixels
  • altura: Altura da região em pixels

Note

O tamanho máximo da região é 1920x1080 pixels.

mcp_desktop_analyze_screen

Executa OCR em toda a tela. No parameters. Retorna {fullText, averageConfidence, boxes[{text, confidence, x, y, width, height}], width, height}.

mcp_desktop_get_screen_size

Devolve a resolução da tela. No parameters. Retorna {width, height}.

mcp_desktop_list_windows

Lista todas as janelas visíveis com seus títulos, posições e dimensões. No parameters. Retorna um array de {title, processName, handle, x, y, width, height}.

mcp_desktop_activate_window

Coloque uma janela em primeiro plano usando uma luta pelo título com fuzzy.

Required parameters:

  • TítuloPadrão: Título parcial da janela (substringa insensível a maiúsculas)

mcp_desktop_focus_browser

Foque em uma janela do navegador (Edge, Chrome ou Firefox), opcionalmente filtrada por URL ou título.

Optional parameters:

  • Padrão: URL ou substring de título para corresponder (omito em qualquer janela do navegador)

mcp_desktop_close_window

Feche uma janela com elegância usando uma luta pelo título com difusão. O sistema protege processos críticos e você não pode fechá-los.

Required parameters:

  • titlePattern: Título parcial da janela (80% limiar de correspondência). Retorna {matchedTitle, processName, closed}.

mcp_desktop_resize_window

Redimensione, mova, maximize, minimize ou restaure uma janela usando uma partida de título difusa.

Required parameters:

  • título: Título da janela para corresponder (correspondência difusa insensível a maiúsculas e minúsculas)
  • ação: Ação para executar - Resize, Move, Maximize, Minimize, ou Restore

Optional parameters:

  • x: Coordenada X da aresta esquerda (usada com Resize ou Move)
  • y: Coordenada Y da borda superior (usada com Resize ou Move)
  • largura: Largura em pixels (usada com Resize)
  • altura: Altura em pixels (usado com Resize)

mcp_desktop_execute_shell_command

Roda um comando shell em um ambiente sandbox. O comando é verificado em relação a uma lista de permissões, e padrões perigosos são bloqueados.

Required parameters:

  • comando: Comando para correr

Optional parameters:

  • cwd: Diretório de trabalho. Use cortes para frente (por exemplo, C:/Users/me/project).
  • timeoutMs: Tempo limite em milissegundos (padrão 30000, máximo 30000)

Note

  • Comandos permitidos: git, npm, dotnet, python, cargo, node, pip, dir, mkdir, del, copy, move, robocopy, findstr, where, type e notepad.
  • Padrões bloqueados incluem metacaracteres de shell (|, ;, &, <, ), >expansão (%VAR%)de variáveis de ambiente, flags de avaliação de interpretadores (python -c ou node -e), git config --global, , npm -gexecutáveis com prefixo de caminho, rm -rf, sudo, e comandos de disco ou sistema.
  • Os comandos stdout e stderr cada um se truncam a 32 KB. Para computação arbitrária, use mcp_desktop_execute_python_code. O comando retorna {stdout, stderr, exitCode, success, timedOut, resourceLimitsApplied}.

mcp_desktop_execute_python_code

Executa código Python em um ambiente sandbox com limites de recursos. Essa função é ideal para processamento de dados, cálculos, E/S de arquivos e qualquer computação que vá além de simples comandos de shell.

Required parameters:

  • c0: código Python (máximo 262.144 caracteres).

Optional parameters:

  • cwd: Diretório de trabalho. Use cortes para frente.
  • timeoutMs: Tempo limite em milissegundos (padrão 30000, máximo 30000).

Retorna o mesmo esquema que mcp_desktop_execute_shell_command.

Note

O sandbox impõe um limite de memória de 512 MB e um tempo limite de 30 segundos.

mcp_desktop_wait_milliseconds

Pausa a execução para permitir que animações ou transições sejam concluídas. Não use essa função em loops de polling. Em vez disso, use mcp_browser_wait_for para pesquisas do DOM.

Required parameters:

  • ms: Duração de espera em milissegundos (fixada a [0, 5000]).

mcp_desktop_clipboard_read

Lê o conteúdo atual da prancheta do sistema. Esse comando não exige nenhum parâmetro. Ele retorna um objeto JSON que descreve o formato da área de transferência e a carga útil, que pode ser uma string de texto ou uma imagem codificada em base64.

mcp_desktop_clipboard_write

Escreve texto na prancheta do sistema, substituindo o conteúdo atual.

Required parameters:

  • texto: Texto para escrever na prancheta

Retorna uma confirmação que inclui a contagem de caracteres.

mcp_desktop_list_processes

Lista processos em execução na sessão atual. Cada entrada inclui o PID, nome do processo, uso de memória, título da janela (se houver) e startTimeTicks. Combine startTimeTicks com mcp_desktop_kill_process para evitar matar um PID reciclado.

Optional parameters:

  • maxCount: Número máximo de processos a serem retornados (padrão 200)

Retorna um array JSON de objetos info de processo.

mcp_desktop_kill_process

Encerrar um processo por PID. Forneça o startTime valor para mcp_desktop_list_processes proteger contra a reciclagem de PID.

Required parameters:

  • pid: ID do processo retornado por mcp_desktop_list_processes
  • startTime: O tempo de início do processo retorna por mcp_desktop_list_processes

Optional parameters:

  • força: Força-matar sem um desligamento elegante (padrão falso)

Retorna um resultado JSON descrevendo o resultado.

mcp_desktop_launch_application

Inicie um aplicativo de interface gráfica a partir de um diretório permitido. Use mcp_desktop_execute_shell_command para comandos de CLI em vez disso.

Required parameters:

  • path: Caminho absoluto para o executável. Use cortes para frente (por exemplo, C:/Program Files/app.exe).

Optional parameters:

  • args: Array de argumentos de linha de comando

Retorna {path, pid}.

mcp_desktop_get_system_info

Retorna a versão do sistema operacional, CPU, RAM, espaço disponível em disco e resolução de exibição. No parameters. Retorna um objeto JSON contendo as informações do sistema.

mcp_browser_navigate

Navega até uma URL e espera a página carregar.

Required parameters:

  • URL: URL completa incluindo protocolo (por exemplo, https://example.com)

mcp_browser_back

Navega de volta no histórico do navegador. No parameters.

mcp_browser_forward

Navega para frente no histórico do navegador. No parameters.

mcp_browser_reload

Recarrega a página atual. No parameters.

mcp_browser_get_url

Retorna a URL da página atual como uma string simples. No parameters.

mcp_browser_get_title

Retorna o título da página atual como uma string simples. No parameters.

mcp_browser_get_text

Retorna o conteúdo do texto da página visível como uma string simples. No parameters. Reduzido em 512 KB.

mcp_browser_get_html

Retorna a fonte HTML da página inteira como uma string simples. No parameters. Reduzido em 512 KB.

mcp_browser_get_page_state

Recupera múltiplos campos de estado de página em uma única chamada. Útil para capturar vários sinais ao mesmo tempo sem emitir chamadas separadas para ferramentas.

Required parameters:

  • campos: Array de campos a retornar. Valores permitidos: url, title, dom, screenshot, tabs

Retorna um objeto JSON contendo apenas os campos solicitados.

mcp_browser_click

Clica em um elemento DOM pelo seletor CSS. Mais confiável do que clicar por coordenadas para conteúdo web.

Required parameters:

  • seletor: seletor CSS (por exemplo, #submit-btn ou a.nav-link)

mcp_browser_type

Digita texto em um elemento de formulário usando um seletor CSS.

Required parameters:

  • seletor: Seletor CSS do elemento de entrada.
  • texto: Texto para digitar.

mcp_browser_query_text

Obtém o conteúdo de texto do primeiro elemento que corresponde a um seletor CSS.

Required parameters:

  • seletor: seletor CSS.

mcp_browser_wait_for

Espera que um elemento DOM apareça. Essa função é útil para conteúdo dinâmico que carrega de forma assíncrona.

Required parameters:

  • seletor: seletor CSS para esperar.

Optional parameters:

  • Tempo mortoMs: Tempo em milissegundos. O padrão é 5.000 e o máximo é 30.000.

mcp_browser_eval_js

Avalia uma expressão JavaScript no contexto da página e retorna o resultado como uma string.

Required parameters:

  • expression: expressão JavaScript que retorna uma string

Note

Se sua expressão retornar um objeto ou número, converta-o explicitamente em uma string (por exemplo, JSON.stringify(obj) ou .toString()).

mcp_browser_list_tabs

Lista todas as abas abertas com seu índice, título e URL. No parameters. Retorna um array de {index, title, url}.

mcp_browser_switch_tab

Muda para uma aba por índice.

Required parameters:

  • tabIndex: índice de aba baseado em 0

mcp_browser_new_tab

Abra uma nova aba, opcionalmente navegue até uma URL.

Optional parameters:

  • URL: URL para abrir (aba em branco se omitida)

Retorna {index, title, url}.

mcp_browser_create_tabs

Abra várias abas ao mesmo tempo. Opcionalmente, traga um deles para o primeiro plano.

Required parameters:

  • URLs: Array de URLs para abrir, uma aba por URL

Optional parameters:

  • foregroundIndex: Índice da aba para trazer para o primeiro plano após a criação (omita para manter a aba atual focada)

Retorna uma mensagem de confirmação.

mcp_browser_close_tab

Feche uma aba por índice.

Required parameters:

  • tabIndex: índice de aba baseado em 0

mcp_browser_screenshot

Capture uma captura de tela em PNG apenas da viewport do navegador (não da tela cheia). No parameters. Retorna um PNG codificado base64.

mcp_browser_select_option

Selecione uma ou mais opções em um <select> elemento pelo atributo deles value .

Required parameters:

  • seletor: seletor CSS para o <select> elemento
  • valores: Array de(s) valor(es) das opções a selecionar

Retorna uma confirmação com a contagem de opções selecionadas.

mcp_browser_fill_form

Preencha vários campos de formulário em uma única chamada. Cada entrada é um {selector, value} par. A operação para na primeira falha e informa quais campos foram bem-sucedidos.

Required parameters:

  • campos: Array de {selector, value} pares

Retorna uma confirmação com a contagem de campos preenchidos.

mcp_browser_drag

Arraste um elemento fonte para um elemento alvo. Ambos os elementos são identificados pelo seletor CSS.

Required parameters:

  • sourceSelector: Seletor CSS da fonte de arrasto
  • Seletor de alvo: Seletor CSS do alvo de drop

mcp_browser_pdf_save

Salve a página atual como um arquivo PDF. Caminhos de destino são restritos a %USERPROFILE% ou %TEMP%.

Required parameters:

  • filePath: Caminho do arquivo de destino sob %USERPROFILE% ou %TEMP%. Use cortes para frente.

Retorna uma confirmação incluindo o caminho do arquivo salvo.

mcp_browser_handle_dialog

Aceite ou descarte um diálogo pendente do navegador (alerta, confirmação, solicitação ou antes do download). Retorna "Nenhum diálogo pendente" se nenhum diálogo estiver ativo.

Required parameters:

  • ação: accept ou dismiss

Optional parameters:

  • promptText: Texto para fornecer a um diálogo de prompt (ignorado para alerta e confirmação)

mcp_browser_get_cookies

Obtenha cookies para a página atual, ou para um conjunto específico de URLs. Os valores dos cookies são sempre editados por questões de segurança; nomes, domínios, caminhos e flags são retornados.

Optional parameters:

  • URLs: Array de URLs para obter cookies (omito na página atual)

Retorna um array de objetos cookie com valores redigidos.

mcp_browser_set_cookies

Defina cookies no domínio da página atual. Adiciona ou sobrescreve cookies — não elimina cookies existentes.

Required parameters:

  • cookies: Variedade de objetos de cookies. Cada entrada requer name e value. Campos opcionais: domain, path, secure, httpOnly, sameSite.

Retorna uma mensagem de confirmação.

mcp_browser_execute_batch

Execute múltiplas ações do navegador sequencialmente em uma única chamada. Essa ação para na primeira falha e retorna os resultados coletados até aquele ponto.

Required parameters:

  • ações: Matriz de {action, params} objetos. Ações permitidas: navigate, snapshot, click_ref, type_ref, hover_ref, scroll_ref, keypress_ref, wait_for, . eval_js

Retorna uma matriz de resultados, um por ação executada.

mcp_browser_snapshot

Captura a árvore de acessibilidade da página com IDs de referência estáveis (por exemplo, e5) que mapeiam para nós DOM. Use as referências com mcp_browser_click_ref, mcp_browser_type_ref, e mcp_browser_hover_ref. Referências expiram quando a página navega — refaça um snapshot após a navegação.

Optional parameters:

  • maxDepth: Profundidade máxima da árvore, 1-10 (padrão 5)
  • incluiIframes: Inclui iframes de origem cruzada (padrão verdadeiro)

Retorna um objeto JSON contendo o snapshot de acessibilidade e os IDs de referência.

mcp_browser_click_ref

Clica em um elemento pelo ref ID de mcp_browser_snapshot. Um teste de acerto verifica que nenhum outro elemento sobrepõe o alvo. Se o snapshot expirar, refaça o snapshot nesse caso.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref (por exemplo, e5) dos nós snapshot

Optional parameters:

  • botão: Esquerda, Direita ou Meio (padrão Esquerda)
  • Contagem de cliques: 1 = clique simples, 2 = clique duplo (padrão 1)

Retorna uma confirmação incluindo as coordenadas clicadas.

mcp_browser_type_ref

Digita texto em um elemento usando o ID de referência de mcp_browser_snapshot. O elemento é focado primeiro, e o texto existente é limpo por padrão. A operação falha se o snapshot expirar.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref (por exemplo, e5) dos nós snapshot
  • texto: Texto para digitar.

Optional parameters:

  • Clear: Limpar o texto existente primeiro (padrão verdadeiro)

Retorna uma confirmação que inclui a contagem de caracteres.

mcp_browser_hover_ref

Paira sobre um elemento usando o ID de referência de mcp_browser_snapshot. Returns immediately. A operação falha se o snapshot expirar – nesse caso, refaça o snapshot.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref (por exemplo, e5) dos nós snapshot

Retorna uma confirmação incluindo as coordenadas de hover.

mcp_accessibility_get_accessibility_tree

Recupere a árvore de elementos da interface para a janela em primeiro plano. Cada elemento inclui seu papel, nome, valor e coordenadas de tela.

Optional parameters:

  • maxDepth: Profundidade máxima de travessia da árvore, 1-10 (padrão 3)
  • maxElements: Elementos máximos a retornar, 1-2000 (padrão 500)

Retorna uma árvore hierárquica de {role, name, value, x, y, width, height, children[...]}.

mcp_browser_keypress_ref

Pressione uma única tecla em um elemento por ID de referência de mcp_browser_snapshot. O elemento é focado primeiro. Suporta teclas modificadoras. Falha se o snapshot expirar — faça o snapshot novamente nesse caso.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref (por exemplo, e5) dos nós snapshot
  • chave: Nome da chave — por exemplo, Enter, Escape, Tab, ArrowUp, ArrowDown, ou F1F12

Optional parameters:

  • modificadores: Matriz de teclas modificadoras a segurar durante a pressão — Ctrl, Shift, Alt, ou Meta

Retorna uma mensagem de confirmação.

mcp_browser_scroll_ref

Role um elemento para a visualização por ID de referência de mcp_browser_snapshot. Opcionalmente, role por um delta de pixel dentro do elemento. Falha se o snapshot expirar.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref (por exemplo, e5) dos nós snapshot

Optional parameters:

  • deltaX: Delta de rolagem horizontal em pixels (padrão 0)
  • deltaY: Delta de rolagem vertical em pixels (padrão 0)

Retorna uma mensagem de confirmação.

mcp_browser_set_file_input_ref

Defina arquivos em um elemento de entrada de arquivo por um ref ID de mcp_browser_snapshot. Os caminhos dos arquivos são restritos aos diretórios do usuário Documents, Downloads, Desktop, ou %TEMP% do usuário.

Required parameters:

  • snapshotId: ID de snapshot retornado por mcp_browser_snapshot
  • ref: Element ref para a entrada do arquivo
  • filePaths: Array de caminhos de arquivo a serem enviados

Retorna uma mensagem de confirmação.

mcp_accessibility_find_ui_element

Procure por elementos de interface por conteúdo de texto, função de acessibilidade ou nome (substringa insensível a maiúsculas minúsculas). Retorna elementos correspondentes com suas coordenadas de tela clicáveis.

Optional parameters:

  • texto: Texto para procurar (usado como nome caso nome seja omitido).
  • role: filtro de função da interface - Button, TextBox, CheckBox, MenuItem, ComboBox, e mais.
  • nome: Nome acessível (tem precedência sobre o texto se ambos forem fornecidos).
  • windowHandle: Handle-de-janela de alvo (null = janela em primeiro plano).

Key features

Desktop interaction

  • Clique, clique duplo, clique direito e controle do mouse com cinco botões.
  • Arrastar e soltar com precisão de pixel.
  • Rolagem baseada em entalhes (três entalhes ≈ uma página).
  • Teclado e atalhos combinados de teclado.
  • Rastreamento da posição do cursor.
  • Detecção de resolução de tela.

Captura de tela e análise

  • Capturas de tela cheia ou recortadas em PNG.
  • OCR da tela cheia com pontuações de confiança por região e caixas delimitadoras.
  • Capturas de tela apenas para o navegador para conteúdo da web.

Window management

  • Enumere todas as janelas visíveis com posições e dimensões.
  • Ative o Windows por um jogo de título difuso.
  • Foque nas janelas do navegador (Edge, Chrome, Firefox) opcionalmente filtradas por URL ou título.
  • Fechamento elegante da janela com proteção para processos críticos para o sistema.

Command execution

  • Comandos de shell em formato sandbox com uma lista de permissão (git, npm, dotnet, python, cargo, node, pip, dir, mkdir, del, copy, move, robocopy, findstr, where, type).
  • O sandbox Python executa até 262.144 caracteres de código.
  • Diretório de trabalho e controle de tempo por chamada (máximo 30 segundos).
  • Limites de recursos e lista de blocos reforçada contra metacaracteres de shell, flags de avaliação, escalonamento de privilégios e operações destrutivas.

Browser automation

  • Navegar, voltar, avançar, recarregar e condições de espera configuráveis na navegação (load, networkidle0, networkidle2).
  • Leia a URL da página, título, texto visível (limite de 512 KB) e HTML completo (limite de 512 KB).
  • Recuperação consolidada do estado da página — URL, título, DOM, captura de tela e lista de abas em uma única chamada.
  • Clique, digitação, preenchimento de formulário, arrasto e <select> seleção de opções em nível DOM pelo seletor CSS.
  • Interação baseada em acessibilidade e snapshot por ID de referência — clique, digite, passe o cursor do curso, pressione de tecla com modificadores, rolagem e upload de entrada de arquivo.
  • Espere por elementos dinâmicos com tempo limite configurável, opcionalmente exigindo visibilidade.
  • Avalie JavaScript expressões no contexto da página.
  • Gerenciamento de múltiplas abas: lista, troca, abrir uma ou várias de uma vez e fechar.
  • Inspeção de cookies (valores redigidos) e atribuição ao domínio atual.
  • Execução em lote — sequência de múltiplos passos do navegador em uma única chamada, parando na primeira falha.
  • Salve a página atual como PDF sob %USERPROFILE% ou %TEMP%.
  • Tratamento de diálogo para alert, confirm, prompt, e beforeunload.
  • Roda no Microsoft Edge, é lançado automaticamente no primeiro uso.

UI accessibility

  • Recupere o Windows Automação da Interface do Usuário tree para a janela em primeiro plano com profundidade e contagem de elementos configuráveis.
  • Encontre elementos da interface por texto, função ou nome acessível.
  • Retorna coordenadas clicáveis na tela para direcionar com precisão botões, caixas de texto, caixas de seleção, itens de menu e caixas de combo.

Temporização e sincronização

  • Use mcp_desktop_wait_milliseconds para pausas curtas de um único plano (até cinco segundos).
  • Use mcp_browser_wait_for para polling em nível DOM (até 30 segundos).

Notes

  • Todas as coordenadas estão em pixels da tela com (0,0) no canto superior esquerdo. Coordenadas de mcp_desktop_take_screenshot, mcp_desktop_analyze_screen, mcp_accessibility_find_ui_element, e mcp_desktop_list_windows todas compartilham o mesmo espaço de coordenadas.
  • Um sistema de segurança do cursor está ativo: Se o cursor se mover a menos de cinco pixels de qualquer canto da tela, as operações do mouse são canceladas. Evite mirar nas bordas extremas da tela.
  • Operadores de tubos shell (|), pontos e vírgula (;), ampersands (&) e redirecionamento de saída (>, <) são bloqueados. Para transformar a saída do comando, capture-a e processe-a com mcp_desktop_execute_python_code.
  • Se flags de avaliação do interpretador estiverem bloqueados ou se python -c "..." e node -e "..." forem rejeitados, você pode usar mcp_desktop_execute_python_code para Python código, ou escrever código em um arquivo primeiro.
  • O comando stdout/stderr é truncado em 32 KB cada. Use flags para limitar a saída verbosa (por exemplo, git log --oneline -20) ou redirecione para um arquivo e leia separadamente.
  • O tempo máximo para mcp_desktop_execute_shell_command e mcp_desktop_execute_python_code é de 30 segundos. Para trabalhos mais longos, divida em etapas menores ou inicie um processo em segundo plano a partir do Python e faça uma pesquisa.
  • Não existe uma ferramenta dedicada para leitura/gravação de arquivos. Leia arquivos usando mcp_desktop_execute_shell_command o type comando. Escreva arquivos com mcp_desktop_execute_python_code usando a I/O de arquivos embutida da Python. A redireção de saída do shell (>, >>) é bloqueada.
  • mcp_browser_eval_js Sempre devolve uma corda. Converta objetos ou números explicitamente antes de retornar.
  • As ferramentas DOM do navegador (mcp_browser_click, mcp_browser_type, mcp_browser_eval_js e outras) operam apenas na instância Microsoft Edge.  mcp_desktop_focus_browser consegue focar nas janelas do Chrome ou Firefox, mas as ferramentas do DOM não as direcionam.
  • mcp_desktop_take_screenshot requer os quatro parâmetros de corte (x, y, largura, altura) juntos, ou nenhum para uma captura em tela inteira.
  • mcp_desktop_scroll Usa unidades de entalhe (fixadas a [-20, 20]), não pixels. Três entalhes correspondem aproximadamente a uma página.
  • mcp_accessibility_find_ui_element Requer pelo menos um de texto, função ou nome. Quando tanto texto quanto nome são fornecidos, o nome tem precedência.
  • mcp_browser_snapshot Referências expiram na navegação. Se uma _ref ferramenta (clicar, digitar, passar o curso, pressionar tecla, rolar ou definir entrada de arquivo) falhar porque o snapshot está desatualizado, refaça o snapshot e tente novamente.
  • mcp_browser_set_file_input_ref aceita apenas caminhos de arquivo sob os Documentsdiretórios do usuário, Downloads, Desktop, ou %TEMP% do usuário. Arquivos fora dessas localidades são rejeitados.
  • mcp_browser_get_cookies sempre retorna os valores dos cookies redigidos. Use-o para inspeção — nomes, domínios, caminhos e flags são retornados na íntegra, mas os valores não são expostos.
  • mcp_browser_set_cookies Só adiciona ou sobrescreve cookies. Não apaga os cookies existentes. Para remover um cookie, sobrescreva-o com um valor expirado expires por essa ferramenta ou limpe-o pela própria página.
  • mcp_browser_execute_batch para na primeira ação falhada e retorna apenas os resultados coletados até aquele momento. Ações subsequentes no array não são tentadas. As ações permitidas em lote são limitadas a: , , , , , , , , wait_for, , e eval_js. keypress_refscroll_refhover_reftype_refclick_refsnapshotnavigate
  • mcp_browser_create_tabs abre abas na ordem fornecida. Se foregroundIndex for omitido, o foco permanece na aba atualmente ativa.
  • mcp_browser_get_page_state retorna apenas os campos listados no fields array. Solicite apenas o que você precisa – incluindo dom ou screenshot pode produzir grandes cargas úteis.

Casos de uso comuns

Preencha um formulário online

  • Ligue mcp_browser_navigate para abrir a página alvo.
  • Ligue mcp_browser_wait_for para esperar o formulário carregar.
  • Chame mcp_browser_type para preencher cada campo pelo seletor CSS.
  • Ligue mcp_browser_click para enviar o formulário.
  • Ligue mcp_browser_wait_for para esperar o elemento de confirmação.
  • Ligue mcp_browser_get_text para ler e verificar o resultado.

Automatize um aplicativo de desktop

  • Chame mcp_desktop_activate_window para colocar a aplicação em primeiro plano.
  • Chame mcp_desktop_take_screenshot para capturar o estado atual.
  • Ligue mcp_accessibility_find_ui_element para localizar um botão ou campo pelo nome.
  • Ligue mcp_desktop_click para as coordenadas reportadas do elemento.
  • Ligue mcp_desktop_type_text para inserir dados.
  • Peça mcp_desktop_press_keys atalhos (por exemplo, ["ctrl","s"] para salvar).
  • Ligue mcp_desktop_take_screenshot para verificar o resultado.

Extrair dados de uma página web

  • Ligue mcp_browser_navigate para abrir a página.
  • Chamada mcp_browser_get_text para extrair conteúdo de texto visível.
  • Chamar mcp_desktop_execute_python_code para analisar e processar os dados extraídos.
  • Chamar mcp_browser_eval_js para consultar valores específicos via JavaScript quando extração de texto não for suficiente.

Executar tarefas de desenvolvimento

  • Chame mcp_desktop_execute_shell_command , git pullnpm install, e dotnet build.
  • Chamar mcp_desktop_take_screenshot para capturar a saída da build.
  • Ligue mcp_desktop_execute_python_code para analisar logs ou resultados de testes.
  • Chamar mcp_browser_navigate para abrir um servidor de desenvolvimento local no navegador.
  • Chame mcp_browser_screenshot para capturar a página renderizada.

Ler e gravar arquivos

  • Leia um arquivo usando mcp_desktop_execute_shell_command com type C:\path\to\file.txt.
  • Escreva um arquivo usando mcp_desktop_execute_python_code com Python open(...) e write(...).
  • Verifique usando mcp_desktop_execute_shell_command com dir C:\path\to\output.txt.
  • Ligue mcp_accessibility_get_accessibility_tree para entender toda a estrutura da interface.
  • Chame mcp_accessibility_find_ui_element para encontrar um controle específico (por exemplo, role: "MenuItem", name: "Settings").
  • Chame mcp_desktop_click usando as coordenadas reportadas pelo elemento.
  • Ligue mcp_accessibility_find_ui_element novamente para encontrar o próximo controle no diálogo.
  • Ligue mcp_desktop_type_text ou mcp_desktop_click interaja com ela.

Mantenha uma sessão de longa duração viva

  • Envie qualquer pedido de MCP pelo menos uma vez a cada 30 minutos para evitar o despejo ocioso.
  • mcp_desktop_get_screen_size é leve e funciona bem como batimentos cardíacos.