Explorar dados

O Azure Databricks fornece um conjunto de ferramentas e produtos que simplificam a descoberta de ativos de dados acessíveis por meio da Plataforma Data Intelligence do Databricks. Este artigo fornece uma visão geral opinativa de como você pode descobrir e visualizar dados que já foram configurados para acesso em seu workspace.

Os tópicos desta seção se concentram na exploração de objetos de dados e arquivos de dados. Se você estiver procurando informações sobre como trabalhar com ativos como notebooks, consultas SQL, bibliotecas e modelos, consulte a interface do usuário do workspace.

Se você estiver buscando orientações sobre como gerar estatísticas resumidas para conjuntos de dados ou outras tarefas associadas à análise exploratória de dados (EDA), consulte a análise de dados exploratórios no Azure Databricks: ferramentas e técnicas.

Como você pode descobrir ativos de dados?

As ferramentas de descoberta de dados no Azure Databricks se enquadram nas seguintes categorias gerais:

  • Pesquisa, resumo e insights assistidos por IA.
  • Pesquisa de palavras-chave.
  • Exploração do catálogo por meio da interface do usuário.
  • Listagem programática e exploração de metadados.

As ferramentas de descoberta de dados são otimizadas para dados regidos pelo Catálogo do Unity. Os ativos de dados que não foram registrados como objetos do Catálogo do Unity podem não ser detectáveis usando algumas dessas abordagens.

Localizar dados usando a interface do usuário

  • Genie: Procure ativos compartilhados com você, pesquise por nome, faça perguntas sobre dados em linguagem natural e filtre por domínio. Consulte Usar a interface do Genie.
  • Página Descobrir: uma experiência de navegação com curadoria que permite explorar ativos de dados organizados por domínios. Os curadores podem destacar os principais ativos de sua organização, e os consumidores podem navegar por domínio ou tipo de ativo. Consulte a página Discover, domínios e subdomínios.
  • Gerenciador de Catálogos: fornece ferramentas para explorar e controlar ativos de dados. Acessar o Gerenciador de Catálogos usando o ícone de Dados.Catálogo na barra lateral do workspace. Use a aba Insights para entender como os dados estão sendo usados no seu espaço de trabalho. Veja o que é o Gerenciador de Catálogos? E exibir consultas frequentes e usuários de uma tabela.
    • Notebooks e editor de SQL: forneça também um navegador de catálogo para explorar objetos de banco de dados. Clique no ícone catálogo na barra lateral do editor para expandir ou recolher o navegador do catálogo sem sair do editor de código.

Explorar dados programaticamente

Você pode usar o comando SHOW em todos os objetos de banco de dados para descobrir ativos registrados no Catálogo do Unity. Use o comando LIST, o comando %fs magic ou os Utilitários do Databricks para listar arquivos.

Consulte Explorar o armazenamento e localizar arquivos de dados e Explorar objetos de banco de dados.

Examinar comentários de dados

Você pode examinar os comentários para saber mais sobre o conteúdo dos conjuntos de dados disponíveis em seu lakehouse. Os comentários podem ser definidos em objetos de dados, incluindo catálogos, esquemas, tabelas e colunas. Você pode exibir comentários no Explorador de Catálogos ou usando o comando DESCRIBE para um objeto.

O Explorador de Catálogo pode fornecer comentários gerados por IA para tabelas, o que facilita que os proprietários de ativos de dados forneçam uma visão geral avançada dos conjuntos de dados. Confira Adicionar comentários gerados por IA a objetos do Catálogo do Unity.

Os usuários também podem, opcionalmente, fornecer comentários sobre tabelas e outros objetos de banco de dados usando markdown, que é renderizado no Explorador de Catálogos. Consulte Adicionar comentários a dados e ativos de IA.

Faça uma busca por tabelas no lakehouse

Você pode usar a barra de pesquisa no Azure Databricks para encontrar tabelas registradas no Catálogo do Unity. Você pode executar uma pesquisa de palavra-chave ou usar a pesquisa semântica para localizar conjuntos de dados ou colunas relacionadas à consulta de pesquisa. A pesquisa só retorna resultados para tabelas que você tem permissão para ver. A pesquisa revisa nomes de tabela, nomes de coluna, comentários de tabela e comentários de coluna. Consulte Pesquise objetos do espaço de trabalho.