Criar e gerenciar definições de trabalho do Apache Spark no Visual Studio Code

A extensão VS Code do Visual Studio do Fabric Data Engineering suporta totalmente as operações de definição de tarefas Spark de criação, leitura, atualização e eliminação (CRUD) no Fabric. Depois de criar uma definição de trabalho do Spark, você pode carregar mais bibliotecas referenciadas, enviar uma solicitação para executar a definição de trabalho do Spark e verificar o histórico de execução.

Criar uma definição de trabalho do Spark

Para criar uma nova definição de trabalho do Spark:

No VS Code Explorer, selecione a opção Criar Definição de Trabalho do Spark.
Insira os campos iniciais obrigatórios: nome, lakehouse referenciado e lakehouse padrão.
Os processos de pedido e o nome da sua definição de trabalho Spark recém-criada aparecem sob o nó raiz Definição de Trabalho do Spark no VS Code Explorer. No nó de definição de trabalho do Spark, você vê três subnós:
- Ficheiros: Lista do ficheiro de definição principal e outras bibliotecas referenciadas. Pode carregar novos ficheiros a partir desta lista.
- Lakehouse: Lista de todos os lakehouses referenciados por esta definição de tarefa do Spark. A casa do lago padrão está marcada na lista, e você pode acessá-la através do caminho Files/…, Tables/…relativo.
- Executar: Lista do histórico de execução desta definição de trabalho do Spark e o estado de cada execução.

Carregar um arquivo de definição principal para uma biblioteca referenciada

Para carregar ou substituir o arquivo de definição principal, selecione a opção Adicionar arquivo principal.

Para carregar o arquivo de biblioteca ao qual o arquivo de definição principal faz referência, selecione a opção Adicionar arquivo Lib.

Depois de carregar um ficheiro, pode substituí-lo clicando na opção Atualizar ficheiro e carregando um novo ficheiro, ou pode eliminar o ficheiro através da opção Eliminar .

Enviar uma solicitação de execução

Para enviar uma solicitação para executar a definição de tarefa do Spark a partir do VS Code:

Nas opções à direita do nome da definição de trabalho do Spark que você deseja executar, selecione a opção Executar trabalho do Spark.
Depois de enviar a solicitação, um novo aplicativo Apache Spark aparece no nó Runs na lista do Explorador. Você pode cancelar o trabalho em execução selecionando a opção Cancelar trabalho do Spark.

Abrir uma definição de trabalho do Spark no portal do Fabric

Você pode abrir a página de criação de definição de trabalho do Spark no portal do Fabric selecionando a opção Abrir no navegador .

Você também pode selecionar Abrir no navegador ao lado de uma execução concluída para ver a página do monitor de detalhes dessa execução.

Depurar código-fonte de definição de trabalho do Spark (Python)

Se a definição de trabalho do Spark for criada com o PySpark (Python), você poderá baixar o script .py do arquivo de definição principal e do arquivo referenciado e depurar o script de origem no VS Code.

Para baixar o código-fonte, selecione a opção Debug Spark Job Definition à direita da definição de trabalho do Spark.
Após a conclusão do download, a pasta do código-fonte é aberta automaticamente.
Selecione a opção Confiar nos autores quando solicitado. (Esta opção só aparece na primeira vez que abre a pasta. Se você não selecionar essa opção, não poderá depurar ou executar o script de origem. Para obter mais informações, consulte Segurança de confiança do Visual Studio Code Workspace.)
Se você tiver baixado o código-fonte antes, será solicitado que você confirme que deseja substituir a versão local pelo novo download.

Nota

Na pasta raiz do script de origem, o sistema cria uma subpasta chamada conf. Dentro dessa pasta, um arquivo chamado lighter-config.json contém alguns metadados do sistema necessários para a execução remota. NÃO faça nenhuma alteração nele.
O arquivo chamado sparkconf.py contém um trecho de código que você precisa adicionar para configurar o objeto SparkConf . Para habilitar a depuração remota, verifique se o objeto SparkConf está configurado corretamente. A imagem a seguir mostra a versão original do código-fonte.

A próxima imagem é o código-fonte atualizado depois de copiar e colar o trecho.
Depois de atualizar o código-fonte com o conf necessário, você deve escolher o Interpretador Python certo. Certifique-se de selecionar aquele instalado a partir do ambiente conda synapse-spark-kernel.

Editar propriedades de definição de trabalho do Spark

Você pode editar as propriedades detalhadas das definições de trabalho do Spark, como argumentos de linha de comando.

Selecione a opção Atualizar configuração SJD para abrir um arquivo settings.yml . As propriedades existentes preenchem o conteúdo desse arquivo.
Atualize e salve o arquivo .yml.
Selecione a opção Publicar propriedade SJD no canto superior direito para sincronizar a alteração novamente com o espaço de trabalho remoto.

Comentários

Esta página foi útil?

Last updated on 2026-03-24