Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Azure Synapse Link oferece múltiplas formas de escrever e ler os seus dados para se adequarem a vários cenários analíticos. Dependendo do cenário analítico, pode escolher uma configuração específica nas opções abaixo.
| Cenário | Aplica-se a | Opções de configuração disponíveis |
|---|---|---|
| Relatórios operacionais | Tabelas do Microsoft Dataverse, tabelas de finanças e operações, e entidades. | O Synapse Analytics com a opção de Delta lake fornece melhores tempos de resposta de consulta, especialmente aplicáveis para consultar grandes quantidades de dados. Mais informações: Synapse Link com opção Delta Lake |
| Relatórios operacionais | Apenas tabelas Dataverse. | O Synapse Link, com a opção de configuração "In place update", fornece ficheiros CSV no seu data lake que são atualizados quase em tempo real. Esta é uma opção legada disponível para as tabelas do Dataverse. Esta opção não é suportada para tabelas das aplicações de finanças e operações. |
| Data de integração | Tabelas Dataverse, tabelas de finanças e operações, e entidades. | A opção "Acrescentar apenas fornece ficheiros CSV que contêm dados incrementais. Pode criar pipelines que consomem dados incrementais e preenchem sistemas subsequentes. A funcionalidade de Partição de dados específica do utilizador permite escolher uma estratégia de partição de dados personalizada especificamente para tabelas do Dataverse. Os dados da tabela de finanças e operações são particionados pelo sistema com base na estratégia de partição apropriada. Esta opção não está disponível para aplicações de finanças e operações. |
Observação
O Azure Synapse Link for Dataverse era anteriormente conhecido como export to data lake. A Microsoft renomeou o serviço em maio de 2021. O serviço continua a exportar dados para o Azure Data Lake Storage, bem como para o Azure Synapse Analytics. A partir de setembro de 2023, o Azure Synapse Link também lhe permite escolher dados de aplicações financeiras e operacionais do Dynamics 365. Nem todos os padrões de integração são suportados com aplicações de finanças e operações. Para orientações sobre a transição da funcionalidade de exportação para data lake em aplicações de finanças e operações para Synapse Link, consulte o Guia de Transição.
Este artigo aborda as definições de configuração avançadas disponível para tabelas do Dataverse. Estas opções não estão disponíveis para aplicações de finanças e operações.
- Atualizações no local versus escritas apenas de adição.
- Criação de partições de dados especificada pelo utilizador.
Atualizações no local vs. escritas apenas para acrescentar
Ao escrever dados da tabela Dataverse no Azure data lake, com base no valor createdOn, que é a data e hora em que o registo foi criado, existem duas definições diferentes para escolher. São, Atualização in situ e Apenas anexar.
A predefinição (para tabelas onde createdOn está disponível) é fazer uma atualização in-place ou upsert (atualizar ou inserir) dos dados incrementais de destino. Se a alteração for nova e não existir uma linha correspondente no lake, no caso de uma criação, os ficheiros de destino são digitalizados e as alterações são inseridas na partição de ficheiros correspondente no lake. Se a alteração for uma atualização e existir uma linha no lago, o ficheiro correspondente no lago é atualizado com os dados incrementais, em vez de ser inserido. Ou seja, a definição padrão para todas as alterações CUD (criar, atualizar, eliminar) nas tabelas do Dataverse, onde createdOn está disponível, é fazer uma atualização diretamente no destino, no Azure Data Lake.
Pode alterar o comportamento predefinido de uma atualização in place utilizando uma definição opcional chamada Append only. Em vez de uma Atualização no local, em modo Somente anexar, os dados incrementais das tabelas do Dataverse são anexados à partição de ficheiros correspondente no lago. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas>Mostrar definições de configuração avançadas. Para tabelas do Dataverse com Só anexar ativado, todas as alterações CUD são anexadas de forma incremental aos ficheiros de destino correspondentes no lago. Quando escolhe esta opção, a estratégia de partição assume a predefinição como Ano e, quando os dados são escritos para o data lake, são particionados numa base anual.
Apenas anexar é também a definição padrão para tabelas do Dataverse que não têm valor createdOn.
Esta tabela descreve como as linhas são processadas no data lake em relação a eventos CUD para cada uma das opções de escrita de dados.
| Evento | Atualização no local | Acrescentar apenas |
|---|---|---|
| Create | A linha é inserida no ficheiro de partição e baseia-se no valor createdOn da linha. |
A linha é adicionada ao fim do ficheiro de partição e baseia-se no valor createdOn do registo. |
| Update | Se a linha existir no ficheiro de partição, é substituída ou atualizada por dados atualizados. Se não existir, é inserido no ficheiro. | A linha, juntamente com a versão atualizada, é adicionada ao fim do ficheiro de partição. |
| Delete | Se a linha existe no ficheiro de partição, é removida do ficheiro. | A linha é adicionada ao fim do ficheiro de partição com IsDelete column = True. |
Observação
Para tabelas do Dataverse onde Append Only está ativado, eliminar uma linha na fonte não elimina nem remove a linha no lake. Em vez disso, a linha eliminada é anexada como uma nova linha no lago e a coluna isDeleted é definida como Verdadeiro.
A leitura suja (ALLOW_INCONSISTENT_READS) para serverless está ativada para o modo apenas de anexação.
ALLOW_INCONSISTENT_READS significa que o utilizador pode ler os ficheiros que podem ser modificados constantemente enquanto a consulta SELECT está em execução. Os resultados são consistentes e equivalentes a ler um instantâneo do ficheiro. (Não é equivalente ao isolamento do instantâneo da base de dados devido ao tempo de geração de instantâneos diferente.)
Nem todas as alterações do CUD são capturadas apenas no anexo: o Synapse Link processa alterações nos dados em grupos ou "lotes" antes de as publicar no data lake. Como resultado, se o utilizador fizer alterações num curto intervalo de tempo, nem todas as alterações do CUD são capturadas no data lake.
Eis mais alguns detalhes sobre quando utilizar uma das opções.
Atualização no local (legacy): Esta opção é a definição padrão e recomendada apenas se quiser ligar-se diretamente aos dados no lago e precisar do estado atual (não histórico ou alterações incrementais). O ficheiro contém o conjunto de dados completo e pode ser utilizado através do Power BI ou copiando todo o conjunto de dados para pipelines ETL (Extração, Transferência, Carga).
Important
A atualização em uso é um modo legado e não escala bem com volumes elevados de dados ou quando as alterações são frequentes. Se a sua tabela tiver uma grande quantidade de dados ou apresentar uma elevada taxa de criações, atualizações ou eliminações, use apenas Append para garantir uma exportação de dados fiável e com desempenho.
Só anexar: selecione esta opção se não estiver a ligar diretamente aos dados no lago e desejar copiar dados de forma incremental para outro destino utilizando os pipelines ETL. Esta opção fornece um histórico de alterações para ativar cenários de IA e ML. Esta é a opção recomendada para tabelas com grandes volumes de dados ou alterações frequentes de dados.
Pode ativar/desativar o Mostrar definições avançadas de configuração em Avançadas no Azure Synapse Link para o Dataverse personalizar a sua estratégia de partição de dados e selecionar opções para escrever no Azure Data Lake.
Criação de partições de dados
Quando escreve dados das tabelas do Dataverse para o Azure Data Lake Storage utilizando o Azure Synapse Link, as tabelas são particionadas no Azure Data Lake com base no valor createdOn de cada linha da fonte. A estratégia de partição padrão é por mês, por isso os dados são particionados no Azure Data Lake mensalmente.
Com base no volume da tabela do Dataverse e na distribuição de dados, poderá optar por criar partições dos seus dados por ano. Com esta opção, quando os dados das tabelas do Dataverse são escritos no Azure Data Lake, são particionados por ano com base no valor de createdOn em cada linha dos dados de origem. Para tabelas sem a coluna createdOn, as filas de dados são particionadas num novo ficheiro a cada 5.000.000 de registos. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas>Mostrar definições de configuração avançadas.
Aqui estão exemplos de como os dados podem ser tratados no lago com uma estratégia de partição anual ou mensal.