Importar e consultar dados usando o complemento Azure Databricks do Excel

Importante

Este recurso está no Public Preview.

Observação

O suplemento Azure Databricks Excel não está disponível nas regiões Azure Government ou Azure China.

O Azure Databricks Excel Add-in liga o seu espaço de trabalho Azure Databricks à Microsoft Excel, trazendo dados governados do Lakehouse diretamente para as suas folhas de cálculo para o ajudar a passar dos dados para as decisões mais rapidamente.

Esta página descreve como usar o suplemento Azure Databricks Excel para importar e analisar dados de Azure Databricks em Excel. Pode navegar e importar tabelas do Azure Databricks através de uma interface intuitiva onde não é necessário conhecimento de SQL. Embora o complemento ofereça a flexibilidade para executar consultas SQL personalizadas, é opcional.

Pré-requisitos

Antes de utilizar o suplemento do Excel, verifique se o tem configurado.

Selecione um armazenamento SQL

Escolhe qual o SQL warehouse a usar:

  1. No canto superior direito do painel do suplemento Azure Databricks no Excel, clique no menu pendente.
  2. Seleciona qual o SQL warehouse que queres usar.

Importar dados de Azure Databricks

Importa dados do Azure Databricks no Excel selecionando uma tabela, escrevendo uma consulta SQL ou importando uma tabela dinâmica.

Observação

Pode importar vistas métricas do Unity Catalog usando tabelas dinâmicas, consultas SQL e funções personalizadas.

Criar tabelas dinâmicas

Para criar uma tabela dinâmica a partir de tabelas e visualizações do Catálogo Unity no Excel:

  1. No painel Azure Databricks Excel Add-in, no separador Nova importação, selecione Select data como método Importar.

  2. Em Catálogo, selecione a tabela a partir da qual quer criar uma tabela dinâmica e clique em Selecionar.

  3. Selecione a caixa de seleção Dados Pivot.

  4. Configura a tua linha, coluna, valor e filtros conforme necessário.

  5. (Opcional) Para ver um exemplo da importação, clique em Pré-visualização.

  6. (Opcional) Defina um limite de linhas para a sua importação.

  7. Importa os teus resultados. Escolha uma das seguintes opções:

    • Clique em Guardar e importar para guardar a consulta para reutilização no Excel workbook e importar os resultados.
    • Clique na seta para baixo, depois clique em Importar resultados para importar os resultados sem guardar a consulta. Use esta opção quando quiser continuar a editar uma importação.

    Observação

    As tabelas dinâmicas só podem ser inseridas numa nova folha.

Ao trabalhar com métricas do Unity Catalog em tabelas dinâmicas, pode ver-se Sum(measure) nos resultados. Este é um comportamento esperado e não ocorre agregação adicional. O Excel exige que os valores tenham uma função de agregação, mas como os dados contêm valores únicos, não ocorre agregação.

Tabelas selecionadas

Os dados são importados como um objeto de Excel table. Podes mover a tabela ou renomear a folha, e o suplemento do Excel atualiza os dados na nova localização.

Para importar dados de uma tabela Azure Databricks, faça o seguinte:

  1. No painel Azure Databricks Excel Add-in, no separador Nova importação, selecione Select data como método Importar.

  2. Escolha uma tabela para importar do explorador de catálogo. Pode filtrar o catálogo por proprietário, estado de certificação e outras propriedades usando o ícone Sliders. Filtre.

  3. Clique em Selecionar.

  4. Em Colunas, clique na seta para baixo e desmarque as colunas que não quer importar, ou deixe todas as colunas selecionadas para importar a tabela inteira.

  5. (Opcional) Para definir filtros, clique + ao lado de Filtros, selecione a coluna onde quer aplicar um filtro e depois introduza a condição do filtro. Para uma lista de filtros disponíveis, veja Filtros suportados.

    Para filtros que requerem um valor, pode fazer uma das seguintes:

    • Introduza o valor.
    • Para gerar uma lista com até 75 valores de filtro distintos que pode usar, clique em Valores e depois em Obter valores de filtro. Clique na seta para baixo e selecione um ou mais valores da lista.
    • Para usar uma referência de célula, clique em Células, selecione uma célula ou um intervalo de células, e depois clique no botão do cursor.

    Observação

    Os valores do filtro não podem conter vírgula. Para filtrar valores que contenham vírgulas, use o método de importação Write SQL em vez disso

  6. (Opcional) Para ver um exemplo da importação, clique em Pré-visualização.

  7. (Opcional) Podes definir um limite de linhas para restringir o número de linhas importadas.

  8. (Opcional) Para identificar facilmente os seus dados importados, pode introduzir um nome de importação.

  9. Em Destino de Saída, escolha importar os dados para uma nova folha ou para a folha atual. Se importares para a folha atual, os dados começam na referência da célula que introduziste (por defeito A1).

  10. Importa os teus resultados. Escolha uma das seguintes opções:

    • Clique em Guardar e importar para guardar a consulta para reutilização no Excel workbook e importar os resultados.
    • Clique na seta para baixo, depois clique em Importar resultados para importar os resultados sem guardar a consulta. Use esta opção quando quiser continuar a editar uma importação.

Filtros suportados

Quando importa dados selecionando uma tabela, pode aplicar filtros para restringir os resultados. A tabela seguinte descreve cada filtro disponível e a sua entrada esperada.

Filter Entrada esperada Descrição
IS NULL Nenhum Encontra linhas onde o valor da coluna é nulo.
IS NOT NULL Nenhum Encontra linhas onde o valor da coluna não é nulo.
EQUALS Um número ou cadeia de texto Encontra linhas onde o valor da coluna corresponde exatamente ao valor especificado.
NOT EQUALS Um número ou cadeia de texto Encontra linhas onde o valor da coluna não corresponde ao valor especificado.
IN Um ou mais números ou cadeias de texto, separados por vírgulas Encontra linhas onde o valor da coluna corresponde a qualquer um dos valores especificados.
NOT IN Um ou mais números ou cadeias de texto, separados por vírgulas Encontra linhas onde o valor da coluna não corresponde a nenhum dos valores especificados.
LIKE Um padrão usando % (quaisquer caracteres) e _ (um único carácter) como curingas.
%smith Corresponde a qualquer valor que termine em "Smith".
t_p Corresponde a valores como "tap", "tip" ou "top".
Encontra linhas onde o valor da coluna corresponde ao padrão. Sensível a maiúsculas e minúsculas.
NOT LIKE Um padrão usando % (quaisquer caracteres) e _ (um único carácter) como curingas.
%test% exclui valores que contêm "test".
_at exclui valores como "morcego", "gato" ou "chapéu".
Encontra linhas onde o valor da coluna não corresponde ao padrão. Sensível a maiúsculas e minúsculas.
ILIKE Um padrão usando % (quaisquer caracteres) e _ (um único carácter) como curingas.
%Smith corresponde a valores como "smith", "Smith" ou "SMITH".
_ob corresponde a "Bob", "rob" ou "Rob".
Encontra linhas onde o valor da coluna corresponde ao padrão. Não diferencia maiúsculas de minúsculas.
STARTS WITH Uma cadeia de texto Encontra linhas onde o valor da coluna começa com o texto especificado.
ENDS WITH Uma cadeia de texto Encontra linhas onde o valor da coluna termina com o texto especificado.
CONTAINS Uma cadeia de texto Encontra linhas onde o valor da coluna contém o texto especificado em qualquer parte da cadeia.

Escrever consultas SQL

O método de importação Write SQL suporta funções SQL e procedimentos armazenados.

Para executar consultas SQL personalizadas no seu espaço de trabalho do Azure Databricks, faça o seguinte:

  1. No painel Azure Databricks Excel Add-in, no separador Nova importação, selecione Write SQL como método Importação.

  2. Insira um nome para a sua consulta para a identificar mais tarde.

  3. Escreva uma nova consulta ou use uma consulta existente do seu espaço de trabalho no Azure Databricks.

    • Escreve a tua consulta SQL no editor. Pode consultar qualquer tabela no Unity Catalog à qual tenha permissões de acesso.

      • Clique no ícone de Dados. Explorador de catálogos para visualizar os seus esquemas e tabelas.
    • Para usar uma consulta do seu espaço de trabalho de Azure Databricks ou uma consulta existente no Excel, clique em Folder icon. a pasta. Se usar uma consulta existente do seu espaço de trabalho do Azure Databricks, as edições feitas no Excel não são refletidas no Azure Databricks.

      Observação

      As consultas devem ser explicitamente guardadas em Azure Databricks usando o botão Save no editor de consultas antes de aparecerem no Excel.

  4. (Opcional) Para adicionar parâmetros de consulta, clique em +Adicionar ao lado de Parâmetros. Clique no parâmetro e introduza o Nome do Parâmetro e o Valor do Parâmetro.

    • Para o valor do parâmetro, pode inserir um valor específico ou clicar na caixa e no botão de seta para especificar uma referência de célula. Selecione uma célula ou um intervalo de células e clique na seta para preencher automaticamente o valor do parâmetro.
  5. Em Destino de Saída, escolha importar os dados para uma nova folha ou para a folha atual. Se importares para a folha atual, os dados começam na referência da célula que introduziste (por defeito A1).

  6. Para visualizar os resultados da sua consulta, clique em Executar.

  7. Importa os teus resultados. Escolha uma das seguintes opções:

    • Clique em Guardar e importar para guardar a consulta para reutilização no Excel workbook e importar os resultados.
    • Clique na seta para baixo, depois clique em Importar resultados para importar os resultados sem guardar a consulta. Use esta opção quando quiser continuar a editar uma importação.

Também pode usar funções personalizadas para adicionar parâmetros de consulta. Veja Escrever SQL

Usar funções personalizadas em Excel

O complemento Excel fornece funções personalizadas que pode usar em fórmulas do Excel para importar dados do Azure Databricks.

Selecione uma tabela

A DATABRICKS.Table função importa dados de uma tabela do Catálogo Unity.

Sintaxe:

=DATABRICKS.Table(catalog_name.schema_name.table_name, [column1, ...], [limit])

Parâmetros:

  • catalog_name.schema_name.table_name (obrigatório): O nome da tabela totalmente qualificado.
  • columns (opcional): Um array de nomes de colunas para importar. Omita este parâmetro para importar todas as colunas.
  • limit (opcional): O número máximo de linhas a importar. Omita este parâmetro para importar todas as linhas, até ao limite de 10 MB.

Exemplo:

=DATABRICKS.Table("main.default.customers", {"customer_id", "customer_name"}, 100)

Esta fórmula importa as customer_id colunas e customer_name da main.default.customers tabela, limitada a 100 linhas.

Escrever SQL

A DATABRICKS.SQL função executa uma consulta SQL que utiliza parâmetros de consulta e devolve os resultados.

Sintaxe:

Especifique parâmetros usando valores.

=DATABRICKS.SQL("query_text", {parameter1_name, parameter1_value; ...})

Especifique parâmetros usando um intervalo de células. Os parâmetros de nome e valor devem ser definidos em células que estejam na mesma linha.

=DATABRICKS.SQL("query_text", {param_name_cell: param_value_cell; ...})

Parâmetros:

  • query_text (obrigatório): A consulta SQL a executar.
  • parameters (obrigatório): Um mapeamento dos valores dos parâmetros a substituir na consulta.

Exemplo:

=DATABRICKS.SQL("SELECT * FROM samples.bakehouse.sales_suppliers WHERE longitude > :long_param AND latitude > :lat_param LIMIT 10", {"long_param",20; "lat_param",10})

=DATABRICKS.SQL("SELECT * FROM samples.bakehouse.sales_suppliers WHERE city = :city", M4:N4)

Esta fórmula executa uma consulta que filtra os dados de vendas por longitude e latitude, usando os valores dos parâmetros fornecidos.

Gerenciar consultas

Gerir as suas importações existentes a partir da página de Importações.

Editar uma importação existente

Para editar uma importação existente:

  1. No painel Azure Databricks Add-in em Excel, clique no separador Imports.
  2. Encontra a importação que queres editar.
  3. Clique no menu de três pontos ao lado da importação.
  4. Clique em Editar para editar a sua importação.

Dados de atualização

O complemento do Excel não atualiza automaticamente os dados importados. Para atualizar os seus dados com os valores mais recentes do Azure Databricks:

  • Para atualizar uma única importação, faça o seguinte:
    1. No painel Azure Databricks Add-in em Excel, clique no separador Imports.
    2. Clica no ícone de atualizar. Atualiza ao lado da importação que queres atualizar.
  • Para atualizar todas as importações, faça o seguinte:
    1. Clique em Atualizar Tudo no painel Azure Databricks Add-in.

O complemento executa novamente a consulta original ou seleção de tabela e atualiza a sua folha de cálculo com dados novos.

Importante

Ao atualizar dados, o suplemento Excel limpa todos os dados existentes na tabela especificada e recarrega os dados mais recentes do Azure Databricks. Quaisquer colunas personalizadas que adicionaste à tabela são eliminadas durante o processo de atualização.

Implicações da Partilha

Quando partilha um livro de exercícios Excel que contém dados do Azure Databricks, considere as seguintes implicações de acesso e segurança aos dados:

Visibilidade dos dados importados

Quando um destinatário atualiza uma importação, o Add-in utiliza as permissões do Catálogo Unity do destinatário. Se não tiverem acesso aos dados subjacentes, a atualização falha.

Para cadernos onde a privacidade dos dados é uma preocupação, pode usar a seguinte solução alternativa:

  1. Crie um livro de trabalho com todas as fórmulas e importações necessárias.
  2. Apaga os dados importados da folha.
  3. Partilhe o caderno de exercícios com o destinatário.
  4. Peça ao destinatário para atualizar os dados.

O destinatário só vê os dados a que tem acesso com base nas permissões do Catálogo Unity.

Acesso a espaços de trabalho e ativos de dados

  • Utilizadores sem acesso aos objetos do Catálogo Unity referenciados no livro de trabalho não podem atualizar os dados. Para atualizar dados, os utilizadores devem ter permissões de leitura nas tabelas e vistas subjacentes no Unity Catalog.
  • Os utilizadores devem ter acesso à tabela subjacente no Azure Databricks para editar importações existentes.

Visibilidade da consulta

Os utilizadores com acesso de edição ao livro de trabalho podem visualizar as consultas usadas para gerar os dados através do Azure Databricks Add-in, mesmo que não tenham acesso aos dados subjacentes no Unity Catalog.

Limitações

  • Funções personalizadas: Para funções personalizadas, os resultados das consultas são limitados a 25 MiB devido às limitações da API de execução SQL.
  • Carregamento de dados: O carregamento de dados pode falhar se alguma célula do livro de exercícios estiver em modo de edição.
  • Excel Limite de linhas no ambiente de trabalho: O Excel Desktop suporta um máximo de 1.048.576 linhas por folha.
  • Excel na Web limite de tamanho de ficheiro: Excel na Web suporta um tamanho máximo de ficheiro de folha de aproximadamente 25 MB para visualização e edição.