Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página descreve como usar a Classificação de Dados Databricks no Catálogo Unity para classificar e marcar automaticamente dados confidenciais em seu catálogo.
Os catálogos de dados podem ter uma vasta quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.
Para resolver esse problema, o Databricks Data Classification usa um agente de IA para classificar e marcar tabelas automaticamente em seu catálogo. Isso permite que você descubra dados confidenciais e aplique controles de governança sobre os resultados, usando ferramentas como o controle de acesso baseado em atributos (ABAC) do Unity Catalog. Para obter uma lista de tags suportadas, consulte Tags de classificação suportadas.
Com esta funcionalidade, pode:
- Classificar dados: o mecanismo usa um sistema de IA agentic para classificar e marcar automaticamente quaisquer tabelas no Unity Catalog.
- Otimize os custos por meio da varredura inteligente: O sistema determina inteligentemente quando escanear os seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a verificação é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
- Revisar e proteger dados confidenciais: a exibição de resultados ajuda você a exibir resultados de classificação e proteger dados confidenciais marcando e criando políticas de controle de acesso para cada classe.
Importante
A Classificação de Dados do Databricks usa o armazenamento padrão para armazenar resultados de classificação. Não lhe é cobrado pelo armazenamento.
O Databricks Data Classification usa um modelo de linguagem grande (LLM) para ajudar na classificação.
Requerimentos
Observação
A classificação de dados é uma funcionalidade de pré-visualização ao nível do espaço de trabalho, e só pode ser gerida por um administrador de espaço de trabalho ou de conta. Para instruções, veja Gerir pré-visualizações Azure Databricks.
- O seu espaço de trabalho deve ter computação serverless disponível (ativada por padrão nos espaços de trabalho com o Unity Catalog).
- Para habilitar a classificação de dados, deves possuir o catálogo ou teres os privilégios
USE CATALOGeMANAGEsobre ele. - Para ativar a etiquetagem automática de um catálogo, deve ter
USE CATALOGno catálogo,APPLY TAGno catálogo eASSIGNna etiqueta a aplicar. - Para ver os resultados de classificação na interface, deve ter
USE CATALOGe umMANAGEou (SELECT+USE SCHEMA) no catálogo. Para ver valores de amostra associados a deteções, deve estarSELECTna tabela do sistema de resultados.
Observação
Por padrão, apenas os administradores de contas têm MANAGE e ASSIGN as permissões sobre etiquetas sob gestão do sistema de classificação de dados. Os administradores de conta podem conceder MANAGE e ASSIGN para etiquetas individuais governadas a outros utilizadores, entidades principais de serviço ou grupos. Consulte Gerenciar permissões em tags controladas.
Usar classificação de dados
Pode ativar a classificação de dados para vários catálogos ao mesmo tempo a partir da página de resultados, ou configurar catálogos individuais com um controlo mais granular ao nível do esquema.
Ativar múltiplos catálogos
- Na página de resultados de Classificação de Dados, clique em Configurar.
- Selecione os catálogos que pretende ativar, ou selecione todos os catálogos disponíveis no espaço de trabalho.
- Clique em Ativar.
Ativar todos os catálogos disponíveis não permite automaticamente futuros catálogos. Para classificar um novo catálogo, volte ao diálogo Configurar e ative-o.
Ativar um único catálogo com seleção de esquemas
Para escolher esquemas específicos dentro de um catálogo:
Navegue até o catálogo e clique na guia Detalhes .
Ao lado de Classificação de Dados, clique no botão Ativar .
Aparece o diálogo de Classificação de Dados . Por padrão, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu suspenso Esquemas a serem incluídos . Também pode selecionar uma política de Utilização
Clique em Salvar.
Isso cria um trabalho em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou esquemas selecionados.
O mecanismo de classificação depende da análise inteligente para determinar quando digitalizar uma tabela. Novas tabelas e colunas em um catálogo normalmente são verificadas dentro de 24 horas após serem criadas.
Ver os resultados da classificação
Para ver resultados de classificação, clique em Ver resultados ao lado da definição de Classificação de Dados .
Isto abre a interface de Classificação de Dados para o catálogo. Para visualizar resultados de classificação, é necessário um SQL warehouse serverless.
Também pode visualizar os resultados agregados de todos os catálogos classificados na metastore usando o seletor de catálogos no canto superior esquerdo. Escolher Todos os catálogos no menu suspenso.
Para cada tipo de classificação, a tabela mostra:
- Colunas detetadas: O número de colunas onde a classificação foi detetada.
- Marcaçāo Automática: O estado da marcaçāo para essa classificação — Ativo ou Inativo. Na vista da metastore, um estado de Parcialmente Ativo indica que a marcação está ativada em alguns, mas não em todos, os catálogos.
- Acesso ao Utilizador (últimos 7d): O número de utilizadores distintos que acederam a dados desmascarados vs. mascarados dessa classificação nos últimos 7 dias. Use isto para avaliar a exposição de dados sensíveis em toda a sua organização.
Deteções de revisão
Para rever os resultados de um tipo de classificação específico, clique em Rever na coluna mais à direita. Um painel aparece com dois separadores:
- Colunas Detetadas: Mostra as colunas onde a etiqueta de classificação foi detetada com alta confiança, ordenadas primeiro pela deteção mais recente. Inclui também um gráfico de Deteções ao longo do tempo e uma lista de colunas detetadas com valores de exemplo. Clique em qualquer barra do gráfico para ver as deteções específicas dessa data. Os valores das amostras aparecem apenas se tiver as permissões necessárias para visualizar os resultados da classificação.
- Acesso do Utilizador: Lista todos os utilizadores que acederam às colunas com esta etiqueta de classificação, mostrando o seu email e nome de utilizador, juntamente com se têm acesso mascarado ou desmascarado. Mostra também quaisquer políticas de controlo de acesso baseadas em atributos (ABAC) atribuídas a esta etiqueta de classificação. Ao visualizar resultados para um único catálogo, pode criar uma nova política ABAC diretamente a partir do painel.
Se alguma coluna detetada estiver incorreta, pode clicar no ícone Excluir à direita da entrada. Consulte Excluir detecções.
Ativar a marcação automática
Se as colunas identificadas corresponderem às suas expectativas, pode ativar a marcação automática da etiqueta de classificação. Quando a marcação automática está ativada, todas as deteções existentes e futuras dessa classificação são marcadas.
Pode configurar a etiquetagem automática em dois níveis:
-
Nível da Metastore: Ativar ou desativar todos os catálogos ao mesmo tempo. Deve ser administrador da metastore e ter
ASSIGNna tag que está a ser aplicada. -
Nível de catálogo: Ativar ou desativar apenas para o catálogo atual. As definições ao nível de catálogo têm prioridade sobre as definições ao nível da metastore. Deve ter
USE CATALOGeAPPLY TAGno catálogo, eASSIGNna etiqueta que está a ser aplicada.
Ao nível do catálogo, a etiquetagem automática tem três estados:
- Padrão (herdado): O catálogo herda a configuração de etiquetagem do nível da metastore.
- Ativo: A etiquetagem está explicitamente ativada para este catálogo, independentemente da definição ao nível da metastore.
- Inativo: A marcação está explicitamente desativada para este catálogo, independentemente da definição ao nível da metastore.
Quando você desabilita a marcação, nenhuma tag futura é aplicada, mas as tags existentes não são removidas.
Observação
Quando você ativa a marcação automática, as tags não são preenchidas imediatamente. Eles serão preenchidos na próxima varredura, que deve entrar em vigor dentro de 24 horas. As classificações subsequentes serão marcadas imediatamente.
Excluir deteções
Importante
Exclusões de deteção e a sua utilização para melhorar a precisão futura das classificações estão em Beta.
No painel de revisão, pode excluir deteções de colunas individuais. Excluindo uma deteção:
- Remove qualquer etiqueta de classificação existente dessa coluna.
- Impede que futuras digitalizações voltem a aplicar a etiqueta nessa coluna.
- Fornece feedback que melhora a precisão dos resultados futuros de classificação.
Para excluir uma deteção, clique no ícone Excluir para a coluna correspondente no painel de análise. Para voltar a incluir a deteção, clique novamente no ícone.
A tabela do sistema de resultados
A classificação de dados cria uma tabela do sistema nomeada system.data_classification.results para armazenar resultados que, por padrão, são acessíveis apenas ao administrador da conta. O administrador da conta pode partilhar esta tabela. A tabela só é acessível quando você usa computação sem servidor. Para obter detalhes sobre esta tabela, consulte Referência da tabela do sistema de classificação de dados.
Importante
A tabela system.data_classification.results de resultados contém todos os resultados de classificação em todo o metastore e inclui valores de amostra de tabelas em cada catálogo. Você só deve compartilhar essa tabela com usuários privilegiados para ver os resultados de classificação em todo o metastore, incluindo valores de exemplo.
Os utilizadores com SELECT acesso a esta tabela também podem ver valores de amostra associados a deteções na página de resultados de Classificação de Dados.
Configurar controles de governança com base nos resultados da classificação de dados
Mascarar dados confidenciais usando uma política ABAC
O Databricks recomenda o uso do controle de acesso baseado em atributos (ABAC) do Unity Catalog para criar controles de governança com base nos resultados da classificação de dados.
Para criar uma política a partir da página de resultados de Classificação de Dados, clique em Rever para uma etiqueta de classificação, abra o separador de Acesso ao Utilizador e clique em Nova política. O formulário da política é pré-preenchido para que as colunas sejam mascaradas enquanto a tag de classificação é revisada. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Unity Catalog e clique em Salvar.
Você também pode criar uma política que abranja várias tags de classificação, alterando a coluna Quando para atender à condição e fornecendo várias tags.
Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, e-mail ou número de telefone, defina a condição de atendimento como has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").
Deteção e eliminação do RGPD
Este bloco de anotações de exemplo mostra como você pode usar a classificação de dados para ajudar na descoberta e exclusão de dados para conformidade com o GDPR.
Descoberta e exclusão do GDPR usando o bloco de anotações de classificação de dados
Como lidar com tags incorretas
Se uma classificação estiver incorreta, exclua a deteção do painel de revisão. Excluir uma deteção remove a marcação, impede que esta seja reaplicada e aumenta a precisão de futuras verificações. Consulte Excluir detecções.
Erros de verificação
Se ocorrer algum erro durante a verificação, um botão Erros será exibido no canto superior direito da tabela de resultados.
Clique no botão para exibir as tabelas que falharam na verificação e as mensagens de erro associadas.
Por padrão, as falhas que ocorreram em tabelas individuais são ignoradas e repetidas no dia seguinte.
Ver despesas de classificação de dados
Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode exibir despesas relacionadas à Classificação de Dados executando uma consulta ou exibindo o painel de uso.
Observação
A verificação inicial é mais cara do que as verificações subsequentes no mesmo catálogo, pois essas verificações são incrementais e normalmente incorrem em custos mais baixos.
Ver a utilização a partir da tabela do sistema system.billing.usage
Pode verificar as despesas de classificação de dados a partir de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para decompor custos:
-
created_by: Incluir para ver os custos pelo utilizador que iniciou a utilização. -
catalog_id: Inclua para ver os custos por catálogo. O ID do catálogo é mostrado nasystem.data_classification.resultstabela.
Exemplo de consulta para os últimos 30 dias:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Para calcular o custo total em dólares, associe-se a system.billing.list_prices. A seguinte consulta de exemplo utiliza um parâmetro :add_on_rate nomeado como multiplicador no preço de lista. Defina para 1 para usar diretamente o preço de tabela, ou para um valor inferior a 1 para refletir um desconto negociado (por exemplo, 0.9 para um desconto de 10%).
Exemplo de consulta para o custo total em dólares dos últimos 30 dias:
SELECT
u.usage_date,
SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
ON lp.sku_name = u.sku_name
WHERE
u.billing_origin_product = 'DATA_CLASSIFICATION'
AND u.usage_end_time >= lp.price_start_time
AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
u.usage_date
ORDER BY
u.usage_date DESC;
Ver a utilização a partir do painel de utilização
Se já tiver um painel de utilização configurado no seu espaço de trabalho, pode usá-lo para filtrar a utilização selecionando o Billing Origin Project rotulado 'Data Classification'. Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.
Etiquetas de classificação suportadas
Para uma lista completa de etiquetas suportadas organizadas por etiquetas globais, etiquetas regionais e quadros de conformidade (PII, GDPR, HIPAA, DPDPA), ver Etiquetas de classificação suportadas.
Limitações
- Não têm suporte visualizações e visões métricas. Se a exibição for baseada em tabelas existentes, o Databricks recomenda classificar as tabelas subjacentes para ver se elas contêm dados confidenciais.