Classificação de dados

Esta página descreve como usar a Classificação de Dados Databricks no Catálogo Unity para classificar e marcar automaticamente dados confidenciais em seu catálogo.

Os catálogos de dados podem ter uma vasta quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.

Para resolver esse problema, o Databricks Data Classification usa um agente de IA para classificar e marcar tabelas automaticamente em seu catálogo. Isto permite-lhe descobrir dados sensíveis e aplicar controlos de governação sobre os resultados, utilizando ferramentas como o controlo de acesso baseado em atributos no Unity Catalog. Para obter uma lista de tags suportadas, consulte Tags de classificação suportadas.

Com esta funcionalidade, pode:

Classificar dados: o mecanismo usa um sistema de IA agentic para classificar e marcar automaticamente quaisquer tabelas no Unity Catalog.
Otimize os custos por meio da varredura inteligente: O sistema determina inteligentemente quando escanear os seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a verificação é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
Revisar e proteger dados confidenciais: a exibição de resultados ajuda você a exibir resultados de classificação e proteger dados confidenciais marcando e criando políticas de controle de acesso para cada classe.

Importante

A Classificação de Dados do Databricks usa o armazenamento padrão para armazenar resultados de classificação. Não lhe é cobrado pelo armazenamento.

O Databricks Data Classification usa um modelo de linguagem grande (LLM) para ajudar na classificação.

Requerimentos

Observação

A classificação de dados é uma funcionalidade de pré-visualização ao nível do espaço de trabalho, e só pode ser gerida por um administrador de espaço de trabalho ou de conta. Para instruções, veja Gerir pré-visualizações Azure Databricks.

O seu espaço de trabalho deve ter computação serverless disponível (ativada por padrão nos espaços de trabalho com o Unity Catalog).
Para habilitar a classificação de dados, deves possuir o catálogo ou teres os privilégios USE CATALOG e MANAGE sobre ele.
Para ativar a etiquetagem automática de um catálogo, deve ter USE CATALOG no catálogo, APPLY TAG no catálogo e ASSIGN na etiqueta a aplicar.
Para ver os resultados de classificação na interface, deve ter USE CATALOG e um MANAGE ou (SELECT + USE SCHEMA) no catálogo. Para ver valores de amostra associados a deteções, deve estar SELECT na tabela do sistema de resultados.

Observação

Por padrão, apenas os administradores de contas têm MANAGE e ASSIGN as permissões sobre etiquetas sob gestão do sistema de classificação de dados. Os administradores de conta podem conceder MANAGE e ASSIGN para etiquetas individuais governadas a outros utilizadores, entidades principais de serviço ou grupos. Consulte Gerenciar permissões em tags controladas.

Usar classificação de dados

Pode ativar a classificação de dados para vários catálogos ao mesmo tempo a partir da página de resultados, ou configurar catálogos individuais com um controlo mais granular ao nível do esquema.

Ativar múltiplos catálogos

Na página de resultados de Classificação de Dados, clique em Configurar.
Selecione os catálogos que pretende ativar, ou selecione todos os catálogos disponíveis no espaço de trabalho.
Clique em Ativar.

Ativar todos os catálogos disponíveis não permite automaticamente futuros catálogos. Para classificar um novo catálogo, volte ao diálogo Configurar e ative-o.

Ativar um único catálogo com seleção de esquemas

Para escolher esquemas específicos dentro de um catálogo:

Navegue até o catálogo e clique na guia Detalhes .
Ao lado de Classificação de Dados, clique no botão Ativar .
Aparece o diálogo de Classificação de Dados . Por padrão, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu suspenso Esquemas a serem incluídos . Também pode selecionar uma política de Utilização
Clique em Salvar.

Isso cria um trabalho em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou esquemas selecionados.

O mecanismo de classificação depende da análise inteligente para determinar quando digitalizar uma tabela. Novas tabelas e colunas em um catálogo normalmente são verificadas dentro de 24 horas após serem criadas.

Ver os resultados da classificação

Para ver resultados de classificação, clique em Ver resultados ao lado da definição de Classificação de Dados .

Ver o botão de resultados para Classificação de Dados.

Isto abre a interface de Classificação de Dados para o catálogo. Para visualizar resultados de classificação, é necessário um SQL warehouse serverless.

Também pode visualizar os resultados agregados de todos os catálogos classificados na metastore usando o seletor de catálogos no canto superior esquerdo. Escolher Todos os catálogos no menu suspenso.

Para cada tipo de classificação, a tabela mostra:

Colunas detetadas: O número de colunas onde a classificação foi detetada.
Marcaçāo Automática: O estado da marcaçāo para essa classificação — Ativo ou Inativo. Na vista da metastore, um estado de Parcialmente Ativo indica que a marcação está ativada em alguns, mas não em todos, os catálogos.
Acesso ao Utilizador (últimos 7d): O número de utilizadores distintos que acederam a dados desmascarados vs. mascarados dessa classificação nos últimos 7 dias. Use isto para avaliar a exposição de dados sensíveis em toda a sua organização.

Página de resultados mostrando a tabela de classes detetadas.

Deteções de revisão

Para rever os resultados de um tipo de classificação específico, clique em Rever na coluna mais à direita. Um painel aparece com dois separadores:

Colunas Detetadas: Mostra as colunas onde a etiqueta de classificação foi detetada com alta confiança, ordenadas primeiro pela deteção mais recente. Inclui também um gráfico de Deteções ao longo do tempo e uma lista de colunas detetadas com valores de exemplo. Clique em qualquer barra do gráfico para ver as deteções específicas dessa data. Os valores das amostras aparecem apenas se tiver as permissões necessárias para visualizar os resultados da classificação.
Acesso do Utilizador: Lista todos os utilizadores que acederam às colunas com esta etiqueta de classificação, mostrando o seu email e nome de utilizador, juntamente com se têm acesso mascarado ou desmascarado. Mostra também quaisquer políticas de controlo de acesso baseadas em atributos (ABAC) atribuídas a esta etiqueta de classificação. Ao visualizar resultados para um único catálogo, pode criar uma nova política ABAC diretamente a partir do painel.

Resultados mostrando colunas com classificações detetadas.

Se alguma coluna detetada estiver incorreta, pode clicar no ícone Excluir à direita da entrada. Consulte Excluir detecções.

Ativar a marcação automática

Se as colunas identificadas corresponderem às suas expectativas, pode ativar a marcação automática da etiqueta de classificação. Quando a marcação automática está ativada, todas as deteções existentes e futuras dessa classificação são marcadas.

Pode configurar a etiquetagem automática em dois níveis:

Nível da Metastore: Ativar ou desativar todos os catálogos ao mesmo tempo. Deve ser administrador da metastore e ter ASSIGN na tag que está a ser aplicada.
Nível de catálogo: Ativar ou desativar apenas para o catálogo atual. As definições ao nível de catálogo têm prioridade sobre as definições ao nível da metastore. Deve ter USE CATALOG e APPLY TAG no catálogo, e ASSIGN na etiqueta que está a ser aplicada.

Ao nível do catálogo, a etiquetagem automática tem três estados:

Padrão (herdado): O catálogo herda a configuração de etiquetagem do nível da metastore.
Ativo: A etiquetagem está explicitamente ativada para este catálogo, independentemente da definição ao nível da metastore.
Inativo: A marcação está explicitamente desativada para este catálogo, independentemente da definição ao nível da metastore.

Quando você desabilita a marcação, nenhuma tag futura é aplicada, mas as tags existentes não são removidas.

Observação

Quando você ativa a marcação automática, as tags não são preenchidas imediatamente. Eles serão preenchidos na próxima varredura, que deve entrar em vigor dentro de 24 horas. As classificações subsequentes serão marcadas imediatamente.

Excluir deteções

Importante

Exclusões de deteção e a sua utilização para melhorar a precisão futura das classificações estão em Beta.

No painel de revisão, pode excluir deteções de colunas individuais. Excluindo uma deteção:

Remove qualquer etiqueta de classificação existente dessa coluna.
Impede que futuras digitalizações voltem a aplicar a etiqueta nessa coluna.
Fornece feedback que melhora a precisão dos resultados futuros de classificação.

Para excluir uma deteção, clique no ícone Excluir para a coluna correspondente no painel de análise. Para voltar a incluir a deteção, clique novamente no ícone.

Excluir uma coluna individual da deteção.

A tabela do sistema de resultados

A classificação de dados cria uma tabela do sistema nomeada system.data_classification.results para armazenar resultados que, por padrão, são acessíveis apenas ao administrador da conta. O administrador da conta pode partilhar esta tabela. A tabela só é acessível quando você usa computação sem servidor. Para obter detalhes sobre esta tabela, consulte Referência da tabela do sistema de classificação de dados.

Importante

A tabela system.data_classification.results de resultados contém todos os resultados de classificação em todo o metastore e inclui valores de amostra de tabelas em cada catálogo. Você só deve compartilhar essa tabela com usuários privilegiados para ver os resultados de classificação em todo o metastore, incluindo valores de exemplo.

Os utilizadores com SELECT acesso a esta tabela também podem ver valores de amostra associados a deteções na página de resultados de Classificação de Dados.

Configurar controles de governança com base nos resultados da classificação de dados

Mascarar dados confidenciais usando uma política ABAC

A Databricks recomenda usar controlo de acesso baseado em atributos no Unity Catalog para criar controlos de governação baseados nos resultados da classificação de dados.

Para criar uma política a partir da página de resultados de Classificação de Dados, clique em Rever para uma etiqueta de classificação, abra o separador de Acesso ao Utilizador e clique em Nova política. O formulário da política é pré-preenchido para que as colunas sejam mascaradas enquanto a tag de classificação é revisada. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Unity Catalog e clique em Salvar.

Você também pode criar uma política que abranja várias tags de classificação, alterando a coluna Quando para atender à condição e fornecendo várias tags.

Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, e-mail ou número de telefone, defina a condição de atendimento como has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").

Este bloco de anotações de exemplo mostra como você pode usar a classificação de dados para ajudar na descoberta e exclusão de dados para conformidade com o GDPR.

Obter caderno

Como lidar com tags incorretas

Se uma classificação estiver incorreta, exclua a deteção do painel de revisão. Excluir uma deteção remove a marcação, impede que esta seja reaplicada e aumenta a precisão de futuras verificações. Consulte Excluir detecções.

Erros de verificação

Se ocorrer algum erro durante a verificação, um botão Erros será exibido no canto superior direito da tabela de resultados.

Clique no botão para exibir as tabelas que falharam na verificação e as mensagens de erro associadas.

Erros de verificação da tabela de classificação de dados.

Por padrão, as falhas que ocorreram em tabelas individuais são ignoradas e repetidas no dia seguinte.

Ver despesas de classificação de dados

Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode exibir despesas relacionadas à Classificação de Dados executando uma consulta ou exibindo o painel de uso.

Observação

A verificação inicial é mais cara do que as verificações subsequentes no mesmo catálogo, pois essas verificações são incrementais e normalmente incorrem em custos mais baixos.

Ver a utilização a partir da tabela do sistema `system.billing.usage`

Pode verificar as despesas de classificação de dados a partir de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para decompor custos:

created_by: Incluir para ver os custos pelo utilizador que iniciou a utilização.
catalog_id: Inclua para ver os custos por catálogo. O ID do catálogo é mostrado na system.data_classification.results tabela.

Exemplo de consulta para os últimos 30 dias:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Para calcular o custo total em dólares, associe-se a system.billing.list_prices. A seguinte consulta de exemplo utiliza um parâmetro :add_on_rate nomeado como multiplicador no preço de lista. Defina para 1 para usar diretamente o preço de tabela, ou para um valor inferior a 1 para refletir um desconto negociado (por exemplo, 0.9 para um desconto de 10%).

Exemplo de consulta para o custo total em dólares dos últimos 30 dias:

SELECT
  u.usage_date,
  SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
    AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
  ON lp.sku_name = u.sku_name
WHERE
  u.billing_origin_product = 'DATA_CLASSIFICATION'
  AND u.usage_end_time >= lp.price_start_time
  AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
  AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
  u.usage_date
ORDER BY
  u.usage_date DESC;

Ver a utilização a partir do painel de utilização

Se já tiver um painel de utilização configurado no seu espaço de trabalho, pode usá-lo para filtrar a utilização selecionando o Billing Origin Project rotulado 'Data Classification'. Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.

Etiquetas de classificação suportadas

Para uma lista completa de etiquetas suportadas organizadas por etiquetas globais, etiquetas regionais e quadros de conformidade (PII, GDPR, HIPAA, DPDPA), ver Etiquetas de classificação suportadas.

Limitações

Não têm suporte visualizações e visões métricas. Se a exibição for baseada em tabelas existentes, o Databricks recomenda classificar as tabelas subjacentes para ver se elas contêm dados confidenciais.

Comentários

Esta página foi útil?

Last updated on 2026-04-28

Classificação de dados

Requerimentos

Usar classificação de dados

Ativar múltiplos catálogos

Ativar um único catálogo com seleção de esquemas

Ver os resultados da classificação

Deteções de revisão

Ativar a marcação automática

Excluir deteções

A tabela do sistema de resultados

Configurar controles de governança com base nos resultados da classificação de dados

Mascarar dados confidenciais usando uma política ABAC

Deteção e eliminação do RGPD

Descoberta e exclusão do GDPR usando o bloco de anotações de classificação de dados

Como lidar com tags incorretas

Erros de verificação

Ver despesas de classificação de dados

Ver a utilização a partir da tabela do sistema system.billing.usage

Ver a utilização a partir do painel de utilização

Etiquetas de classificação suportadas

Limitações

Comentários

Recursos adicionais

Ver a utilização a partir da tabela do sistema `system.billing.usage`