Compartilhar via


Transformar dados executando um notebook

Use a atividade Notebook para executar notebooks que você cria no Microsoft Fabric como parte de seus pipelines de Data Factory. Os notebooks permitem executar trabalhos do Apache Spark para trazer, limpar ou transformar seus dados como parte de seus fluxos de trabalho de dados. É fácil adicionar uma atividade do Notebook aos pipelines em Fabric e este guia orienta você em cada etapa.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

Criar uma atividade de notebook

  1. Crie um novo pipeline no seu workspace.

  2. Procure por Notebook no painel Atividades do pipeline e selecione-o para adicioná-lo ao canvas do pipeline.

    Screenshot da interface do usuário Fabric com o painel Atividades e a atividade Bloco de Anotações realçado.

  3. Selecione a nova atividade Notebook no painel se ela ainda não estiver selecionada.

    Captura de tela mostrando a guia Configurações gerais da atividade do Notebook.

    Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.

Configurar as configurações do notebook

Selecione a guia Configurações.

Em Conexão, selecione o método de autenticação para a execução do notebook e forneça as credenciais necessárias.

Selecione um notebook existente na lista suspensa Notebook e, opcionalmente, especifique quaisquer parâmetros a serem passados para o notebook.

Captura de tela mostrando a guia Configurações do notebook, destacando onde escolher um notebook e onde adicionar parâmetros.

Usando Identidade do Workspace do Fabric (WI) na atividade Notebook

  1. Criar a identidade do Workspace

    Você deve habilitar a WI em seu workspace (isso pode levar um momento para ser carregado). Crie uma Identidade de Espaço de Trabalho em seu Espaço de Trabalho Fabric. Observe que a WI deve ser criada no mesmo ambiente de trabalho que o Pipeline.

    Confira a documentação sobre a Identidade do Workspace.

  2. Habilitar configurações no nível do locatário

    Habilite a seguinte configuração de locatário (ela está desabilitada por padrão): Os principais de serviço podem chamar APIs públicas do Fabric.

    Você pode habilitar essa configuração no Fabric portal de administração. Para obter mais informações sobre essa configuração, consulte o artigo sobre a habilitação da autenticação do principal de serviço para APIs administrativas.

  3. Conceder permissões de workspace à Identidade do Workspace

    Abra o workspace, selecione Gerenciar acesso e atribua permissões à Identidade do Workspace. O acesso de colaborador é suficiente para a maioria das situações. Se o seu notebook não estiver no mesmo workspace que o pipeline, você precisará atribuir ao item de trabalho (WI) que você criou no workspace do pipeline, no mínimo, acesso de Colaborador ao workspace do notebook.

    Confira a documentação em Conceder aos usuários acesso aos workspaces.

Definir etiqueta de sessão

Para minimizar o tempo necessário para executar o trabalho do notebook, você pode definir uma tag de sessão. Definir a marca de sessão instrui o Spark a reutilizar qualquer sessão do Spark existente, minimizando o tempo de inicialização. Qualquer valor de cadeia de caracteres arbitrário pode ser usado para a etiqueta de sessão. Se nenhuma sessão existir, uma nova será criada usando o valor do tag.

Captura de tela mostrando a guia Configurações do notebook destacando onde adicionar a etiqueta de sessão.

Observação

Para poder usar a tag de sessão, o modo de alta simultaneidade para a execução de múltiplos notebooks do pipeline precisa estar ativada. Essa opção pode ser encontrada no modo Alta simultaneidade para as configurações do Spark nas configurações do Workspace

Captura de tela mostrando a guia Configurações do workspace realçando a guia, onde habilitar o modo alta simultaneidade para os pipelines que executam vários notebooks.

Salve e execute ou agende o pipeline

Alterne para a guia Página Inicial na parte superior do editor de pipeline e selecione o botão Salvar. Selecione Executar para executá-lo diretamente ou Agendar para agendar execuções em intervalos ou horários específicos. Para obter mais informações sobre execuções de pipeline, consulte: cronograma de execuções de pipeline.

Captura de tela mostrando a guia Início no editor de pipeline com o nome da guia e os botões Salvar, Executar e Agendar realçados.

Depois de executar, você pode monitorar a execução do pipeline e exibir o histórico de execução na guia Saída abaixo da tela.

Problemas conhecidos