Perguntas frequentes sobre o conector do SQL Server

Esta página responde a perguntas frequentes sobre o conector do SQL Server no Databricks Lakeflow Connect.

Perguntas frequentes gerais sobre conectores gerenciados

As respostas nas Perguntas frequentes sobre o conector gerenciado se aplicam a todos os conectores gerenciados no Lakeflow Connect. Continue a ler para consultar perguntas frequentes específicas do conector.

Se o pipeline falhar, a ingestão será retomada sem perda de dados?

Sim. O Databricks acompanha o que o conector extraiu da origem e aplicou no destino. Se algo acontecer, o Databricks pode retomar nesse ponto, desde que os logs permaneçam no banco de dados de origem. Isso pode ser afetado se o pipeline não for executado antes que o período de retenção de log exclua os logs, exigindo uma atualização completa nas tabelas de destino.

O conector captura fusos horários para colunas de data e hora?

Não. A data e a hora são ingeridas em formato UTC.

Posso personalizar o cronograma do gateway de ingestão?

Não, o gateway de ingestão deve ser executado em modo contínuo para evitar que as alterações sejam descartadas devido à retenção de logs. Se as alterações tiverem sido descartadas, uma atualização completa será necessária para todas as tabelas.

Como o conector lida com uma tabela sem uma chave primária?

O conector trata todas as colunas, exceto objetos grandes, como uma chave primária agrupada. Se houver linhas duplicadas na tabela de origem, essas linhas serão ingeridas como uma única linha na tabela de destino.

Com que frequência posso agendar a execução do pipeline de ingestão?

Não há limite para a frequência com que o pipeline de ingestão pode ser programado. No entanto, o Databricks recomenda pelo menos 5 minutos entre os intervalos porque leva algum tempo para a computação sem servidor ser inicializada. O Databricks não suporta a execução do pipeline de ingestão no modo contínuo.

Porque não vejo todas as linhas do meu banco de dados na execução inicial do pipeline?

O gateway de ingestão extrai dados históricos e CDC assim que começa a ser executado. O pipeline de ingestão pode ser executado antes de todos esses dados terem sido extraídos, resultando em uma aplicação parcial de dados em tabelas de destino. Pode requerer várias execuções do pipeline de ingestão para que todos os dados sejam completamente extraídos e aplicados às tabelas alvo.

O meu gateway de ingestão demora muito tempo a arrancar. Como faço para corrigi-lo?

Os gateways funcionam em computação clássica e provisionam uma máquina virtual (VM) em cada arranque. Se o arranque demorar mais do que alguns minutos, considere o seguinte:

  • Altere para o canal atual do pipeline. Esta é a solução mais comum. As versões de canais de pré-visualização têm tempos de arranque mais longos. Podes alterar isto na interface do utilizador (nas definições avançadas do pipeline em Channel), ficheiro de recursos do pacote ou especificação do pipeline.
  • Não reinicies o gateway entre as sessões de ingestão. O gateway foi concebido para funcionar de forma contínua. Parar e reiniciar reaprovisiona a VM a cada reinício e corre o risco de perder logs de alterações se a fonte os truncar enquanto o gateway está inativo.

Se o gateway ficar preso num estado inicial durante 15 minutos ou mais, crie um ticket de suporte.

Isto aplica-se apenas a portas de entrada. As canalizações de ingestão executam em computação baseada em Serverless e iniciam rapidamente.

Posso ingerir a partir de uma réplica de leitura ou de uma instância secundária?

Não. O suporte é limitado às instâncias primárias do SQL Server. Isso ocorre porque o controle de alterações e a captura de dados de alterações não são suportados em réplicas de leitura ou instâncias secundárias.