Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Gorjeta
Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.
Este artigo descreve como utilizar a atividade de cópia nos pipelines Azure Data Factory e Azure Synapse para copiar dados de e para a base de dados SQL Server e usar o Fluxo de Dados para transformar dados na base de dados SQL Server. Para saber mais, leia o artigo introdutório para Azure Data Factory ou Azure Synapse Analytics.
Capacidades suportadas
Este conector SQL Server é suportado para as seguintes capacidades:
| Capacidades suportadas | IR |
|---|---|
| atividade Copy (fonte/sumidouro) | (1) (2) |
| Mapeando o fluxo de dados (origem/destino) | (1) |
| Atividade de Pesquisa | (1) (2) |
| Atividade GetMetadata | (1) (2) |
| Atividade de script | (1) (2) |
| Atividade de procedimento armazenado | (1) (2) |
(1) Runtime de integração Azure (2) Runtime de integração auto-hospedado
Para obter uma lista de armazenamentos de dados suportados como fontes ou destinos pela atividade de cópia, consulte a tabela Armazenamentos de dados suportados.
Especificamente, este conector SQL Server suporta:
- SQL Server versão 2005 e superiores.
- Copiar dados usando SQL ou Windows authentication.
- Como origem, recuperando dados usando uma consulta SQL ou um procedimento armazenado. Também pode optar por copiar em paralelo do SQL Server como fonte, consulte a secção Cópia paralela da base de dados SQL para mais detalhes.
- Como um coletor, criando automaticamente a tabela de destino se não existir com base no esquema de origem; anexar dados a uma tabela ou invocar um procedimento armazenado com lógica personalizada durante a cópia.
SQL Server Express LocalDB não é suportado.
Importante
A fonte de dados deve suportar o tipo de dados NVARCAR, pois afeta a codificação de dados quando uma codificação não universal está sendo aplicada nos dados.
Pré-requisitos
Se o seu armazenamento de dados estiver localizado numa rede local, numa rede virtual Azure ou na Amazon Virtual Private Cloud, precisa de configurar um runtime de integração auto-hospedado para se ligar a ele.
Se o seu armazenamento de dados for um serviço de dados na cloud gerido, pode usar o Azure Integration Runtime. Se o acesso for restrito a IPs aprovados nas regras do firewall, pode adicionar IPs Azure Integration Runtime à lista de autorizações.
Também pode usar a funcionalidade managed virtual network integration runtime no Azure Data Factory para aceder à rede local sem instalar e configurar um runtime de integração auto-hospedado.
Para obter mais informações sobre os mecanismos de segurança de rede e as opções suportadas pelo Data Factory, consulte Estratégias de acesso a dados.
Introdução
Para executar a atividade de cópia com um pipeline, você pode usar uma das seguintes ferramentas ou SDKs:
- Ferramenta Copiar dados
- Portal do Azure
- .NET SDK
- Python SDK
- Azure PowerShell
- API REST
- Modelo do Azure Resource Manager
Crie um serviço ligado ao SQL Server usando UI
Use os seguintes passos para criar um serviço ligado ao SQL Server na interface do portal Azure.
Navegue até ao separador Gerir no seu espaço de trabalho Azure Data Factory ou Synapse e selecione Serviços Ligados, depois clique em Novo:
Procure por SQL e selecione o conector SQL Server.
Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.
Detalhes de configuração do conector
As secções seguintes fornecem detalhes sobre propriedades que são usadas para definir as entidades do pipeline Data Factory e Synapse específicas para o conector de base de dados SQL Server.
Propriedades do serviço vinculado
A versão SQL Server Recommended suporta TLS 1.3. Consulte esta secção para atualizar o seu serviço associado do SQL Server se usar a versão Legacy. Para obter os detalhes da propriedade, consulte as seções correspondentes.
Gorjeta
Se encontrar um erro com o código de erro "UserErrorFailedToConnectToSqlServer" e uma mensagem como "O limite de sessão para a base de dados é XXX e foi atingido", adicione Pooling=false ao seu cadeia de ligação e tente novamente.
Versão recomendada
Estas propriedades genéricas têm suporte para um serviço vinculado do SQL Server quando você aplica a versão recomendada :
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type deve ser definida como SqlServer. | Sim |
| servidor | O nome ou endereço de rede da instância do SQL Server à qual você deseja se conectar. | Sim |
| base de dados | O nome do banco de dados. | Sim |
| tipoDeAutenticação | O tipo usado para autenticação. Os valores permitidos são SQL (por defeito), Windows e UserAssignedManagedIdentity (apenas para SQL Server em Azure VMs). Vá para a seção de autenticação relevante sobre propriedades e pré-requisitos específicos. | Sim |
| sempreConfiguraçõesCriptografadas | Especifique as informações alwaysencryptedsettings necessárias para ativar a funcionalidade Always Encrypted e proteger dados confidenciais armazenados no SQL Server, usando identidade de gestão ou um Service Principal. Para obter mais informações, consulte o exemplo JSON após a tabela e a seção Usando o Always Encrypted. Se não for especificado, a configuração padrão sempre criptografada será desabilitada. | Não |
| cifrar | Indique se a criptografia TLS é necessária para todos os dados enviados entre o cliente e o servidor. Opções: obrigatório (para verdadeiro, padrão)/opcional (para falso)/estrito. | Não |
| confiarNaCertificaçãoDoServidor | Indique se o canal será criptografado enquanto ignora a cadeia de certificados para validar a confiança. | Não |
| hostNameInCertificate | O nome do host a ser usado ao validar o certificado do servidor para a conexão. Quando não especificado, o nome do servidor é usado para validação de certificado. | Não |
| conectarVia | Este runtime de integração é utilizado para conectar ao armazenamento de dados. Saiba mais na seção Pré-requisitos . Se não for especificado, utiliza-se o runtime de integração padrão do Azure. | Não |
Para obter propriedades de conexão adicionais, consulte a tabela abaixo:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| applicationIntent | O tipo de carga de trabalho do aplicativo ao se conectar a um servidor. Os valores permitidos são ReadOnly e ReadWrite. |
Não |
| connectTimeout | O período de tempo (em segundos) para aguardar uma conexão com o servidor antes de encerrar a tentativa e gerar um erro. | Não |
| connectRetryCount | O número de reconexões tentadas após a identificação de uma falha de conexão inativa. O valor deve ser um número inteiro entre 0 e 255. | Não |
| connectRetryInterval | A quantidade de tempo (em segundos) entre cada tentativa de reconexão após a identificação de uma falha de conexão ociosa. O valor deve ser um número inteiro entre 1 e 60. | Não |
| loadBalanceTimeout | O tempo mínimo (em segundos) para a conexão viver no pool de conexões antes que a conexão seja destruída. | Não |
| tempo de espera do comando | O tempo de espera padrão (em segundos) antes de encerrar a tentativa de executar um comando e gerar um erro. | Não |
| Segurança integrada | Os valores permitidos são true ou false. Ao especificar false, indique se userName e password estão especificados na conexão. Ao especificar true, indica se as credenciais atuais da conta Windows são usadas para autenticação. |
Não |
| failover partner | O nome ou endereço do servidor parceiro ao qual se conectar se o servidor primário estiver inativo. | Não |
| tamanhoMáximoDoPool | O número máximo de conexões permitido no pool de conexões para a conexão específica. | Não |
| minPoolSize | O número mínimo de conexões permitidas no pool de conexões para a conexão específica. | Não |
| multipleActiveResultSets | Os valores permitidos são true ou false. Quando você especifica true, um aplicativo pode manter vários conjuntos de resultados ativos (MARS). Quando você especifica false, um aplicativo deve processar ou cancelar todos os conjuntos de resultados de um lote antes de poder executar quaisquer outros lotes nessa conexão. |
Não |
| multiSubnetFailover | Os valores permitidos são true ou false. Se o seu aplicativo estiver a conectar-se a um grupo de disponibilidade AlwaysOn (AG) em sub-redes diferentes, ao definir esta propriedade para true, proporciona uma detecção e conexão mais rápidas com o servidor atualmente ativo. |
Não |
| tamanhoDoPacote | O tamanho em bytes dos pacotes de rede usados para se comunicar com uma instância do servidor. | Não |
| Agrupamento | Os valores permitidos são true ou false. Quando você especificar true, a conexão será agrupada. Quando você especificar false, a conexão será aberta explicitamente toda vez que a conexão for solicitada. |
Não |
Autenticação do SQL
Para usar a autenticação SQL, além das propriedades genéricas descritas na seção anterior, especifique as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome de utilizador | O nome de usuário a ser usado ao se conectar ao servidor. | Sim |
| palavra-passe | A senha para o nome de usuário. Marque este campo como SecureString para armazená-lo com segurança. Ou pode referenciar um segredo armazenado em Azure Key Vault. | Não |
Exemplo: Usar autenticação SQL
{
"name": "SqlServerLinkedService",
"properties": {
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "SQL",
"userName": "<user name>",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo: Use autenticação SQL com palavra-passe em Azure Key Vault
{
"name": "SqlServerLinkedService",
"properties": {
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "SQL",
"userName": "<user name>",
"password": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo: Usar sempre criptografado
{
"name": "SqlServerLinkedService",
"properties": {
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "SQL",
"userName": "<user name>",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"alwaysEncryptedSettings": {
"alwaysEncryptedAkvAuthType": "ServicePrincipal",
"servicePrincipalId": "<service principal id>",
"servicePrincipalKey": {
"type": "SecureString",
"value": "<service principal key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Autenticação do Windows (Windows authentication)
Para usar a Windows authentication, além das propriedades genéricas descritas na secção anterior, especifique as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome de utilizador | Especifique um nome de usuário. Um exemplo é domainname\username. | Sim |
| palavra-passe | Especifique uma palavra-passe para a conta de utilizador correspondente ao nome de utilizador que indicou. Marque este campo como SecureString para armazená-lo com segurança. Ou pode referenciar um segredo armazenado em Azure Key Vault. | Sim |
Nota
A Windows authentication não é suportada no fluxo de dados.
Exemplo: Utilize autenticação do Windows
{
"name": "SqlServerLinkedService",
"properties": {
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "Windows",
"userName": "<domain\\username>",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo: Usar autenticação do Windows com palavra-passe no Azure Key Vault
{
"name": "SqlServerLinkedService",
"properties": {
"annotations": [],
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "Windows",
"userName": "<domain\\username>",
"password": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Autenticação de identidade gerenciada atribuída pelo usuário
Nota
A autenticação de identidade gerida atribuída pelo utilizador aplica-se apenas a SQL Server em VMs Azure.
Uma fábrica de dados ou um espaço de trabalho Synapse pode ser associado a identidades geridas atribuídas pelo utilizador que representam o serviço ao autenticar-se com outros recursos no Azure. Pode usar esta identidade gerida para autenticação em SQL Server em Azure VMs. A fábrica designada ou o espaço de trabalho Synapse pode acessar e copiar dados de ou para seu banco de dados usando essa identidade.
Para usar a autenticação de identidade gerenciada atribuída pelo usuário, além das propriedades genéricas descritas na seção anterior, especifique as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| credenciais | Especifique a identidade gerenciada atribuída pelo usuário como o objeto de credencial. | Sim |
Você também precisa seguir os passos abaixo:
Conceda permissões à sua identidade gerenciada atribuída pelo usuário.
Ative a autenticação Microsoft Entra do seu SQL Server nas VMs Azure.
Crie usuários de banco de dados contidos para a identidade gerenciada atribuída pelo usuário. Conecta-te à base de dados da qual ou para a qual quiseres copiar os dados usando ferramentas como o SQL Server Management Studio, com uma identidade Microsoft Entra que tenha pelo menos a permissão ALTERAR QUALQUER UTILIZADOR. Execute o seguinte T-SQL:
CREATE USER [your_resource_name] FROM EXTERNAL PROVIDER;Crie uma ou várias identidades gerenciadas atribuídas pelo usuário e conceda à identidade gerenciada atribuída pelo usuário as permissões necessárias como você normalmente faz para usuários SQL e outros. Execute o código a seguir. Para mais opções, consulte este documento.
ALTER ROLE [role name] ADD MEMBER [your_resource_name];Atribua uma ou várias identidades gerenciadas atribuídas pelo usuário ao seu data factory e crie credenciais para cada identidade gerenciada atribuída pelo usuário.
Configure um serviço ligado ao SQL Server.
Exemplo
{
"name": "SqlServerLinkedService",
"properties": {
"type": "SqlServer",
"typeProperties": {
"server": "<name or network address of the SQL server instance>",
"database": "<database name>",
"encrypt": "<encrypt>",
"trustServerCertificate": false,
"authenticationType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "credential1",
"type": "CredentialReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Versão antiga
Estas propriedades genéricas são suportadas por um serviço ligado do SQL Server quando se aplica a versão Legacy:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type deve ser definida como SqlServer. | Sim |
| sempreConfiguraçõesCriptografadas | Especifique as informações alwaysencryptedsettings necessárias para ativar a funcionalidade Always Encrypted e proteger dados confidenciais armazenados no SQL Server, usando identidade de gestão ou um Service Principal. Para obter mais informações, consulte Using Always Encrypted. Se não for especificado, a configuração padrão sempre criptografada será desabilitada. | Não |
| conectarVia | Este runtime de integração é utilizado para conectar ao armazenamento de dados. Saiba mais na seção Pré-requisitos . Se não for especificado, utiliza-se o runtime de integração padrão do Azure. | Não |
Este conector do SQL Server suporta os seguintes tipos de autenticação. Consulte as seções correspondentes para obter detalhes.
Autenticação SQL para a versão herdada
Para usar a autenticação SQL, além das propriedades genéricas descritas na seção anterior, especifique as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| connectionString | Especifique connectionString informação necessária para se ligar à base de dados SQL Server. Especifique um nome de login como seu nome de usuário e verifique se o banco de dados que você deseja conectar está mapeado para esse login. | Sim |
| palavra-passe | Se quiseres colocar uma palavra-passe no Azure Key Vault, retira a configuração password do cadeia de ligação. Para mais informações, consulte Armazenar credenciais em Azure Key Vault. |
Não |
Windows authentication para a versão antiga
Para usar a Windows authentication, além das propriedades genéricas descritas na secção anterior, especifique as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| connectionString | Especifique connectionString informação necessária para se ligar à base de dados SQL Server. | Sim |
| nome de utilizador | Especifique um nome de usuário. Um exemplo é domainname\username. | Sim |
| palavra-passe | Especifique uma palavra-passe para a conta de utilizador correspondente ao nome de utilizador que indicou. Marque este campo como SecureString para armazená-lo com segurança. Ou pode referenciar um segredo armazenado em Azure Key Vault. | Sim |
Propriedades do conjunto de dados
Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo sobre conjuntos de dados. Esta secção fornece uma lista de propriedades suportadas pelo conjunto de dados do SQL Server.
Para copiar dados de e para uma base de dados SQL Server, são suportadas as seguintes propriedades:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type do conjunto de dados deve ser definida como SqlServerTable. | Sim |
| esquema | Nome do esquema. | Não para a fonte, Sim para o lavatório |
| tabela | Nome da tabela/visão. | Não para a fonte, Sim para o lavatório |
| tableName | Nome da tabela/vista com esquema. Esta propriedade é suportada para compatibilidade com versões anteriores. Para nova carga de trabalho, use schema e table. |
Não para a fonte, Sim para o lavatório |
Exemplo
{
"name": "SQLServerDataset",
"properties":
{
"type": "SqlServerTable",
"linkedServiceName": {
"referenceName": "<SQL Server linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
}
}
}
Propriedades da atividade de cópia
Para obter uma lista completa de seções e propriedades disponíveis para uso para definir atividades, consulte o artigo Pipelines . Esta secção fornece uma lista de propriedades suportadas pelo código-fonte e pelo dissipador do SQL Server.
SQL Server como fonte
Gorjeta
Para carregar dados de SQL Server de forma eficiente usando particionamento de dados, aprenda mais sobre Cópia paralela da base de dados SQL.
Para copiar dados de SQL Server, defina o tipo de origem na atividade de cópia para SqlSource. As seguintes propriedades são suportadas na seção de origem da atividade de cópia:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type da fonte de atividade de cópia deve ser definida como SqlSource. | Sim |
| sqlReaderQuery | Utilize uma consulta SQL personalizada para ler dados. Um exemplo é select * from MyTable. |
Não |
| sqlReaderStoredProcedureName | Esta propriedade é o nome do procedimento armazenado que lê dados da tabela de origem. A última instrução SQL deve ser uma instrução SELECT no procedimento armazenado. | Não |
| parâmetrosDeProcedimentoArmazenado | Esses parâmetros são para o procedimento armazenado. Os valores permitidos são pares de nome ou valor. Os nomes e o invólucro dos parâmetros devem corresponder aos nomes e invólucros dos parâmetros do procedimento armazenado. |
Não |
| Nível de isolamento | Especifica o comportamento de bloqueio de transação para a fonte SQL. Os valores permitidos são: ReadCommitted, ReadUncommitted, RepeatableRead, Serializable, Snapshot. Se não for especificado, o nível de isolamento padrão do banco de dados será usado. Consulte este documento para obter mais detalhes. | Não |
| opções de partição | Especifica as opções de particionamento de dados usadas para carregar dados do SQL Server. Os valores permitidos são: None (padrão), PhysicalPartitionsOfTable e DynamicRange. Quando uma opção de partição está ativada (ou seja, não None), o grau de paralelismo para carregar simultaneamente dados de SQL Server é controlado pela definição parallelCopies na atividade de cópia. |
Não |
| configurações de partição | Especifique o grupo de configurações para particionamento de dados. Aplique quando a opção de partição None não for. |
Não |
Em partitionSettings: |
||
| nomeDaColunaDePartição | Especifique o nome da coluna de origem no tipo inteiro ou data/datetime (int, smallint, bigint, date, smalldatetime, datetime, datetime2, ou datetimeoffset) que será usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, o índice ou a chave primária da tabela será detetado automaticamente e usado como a coluna de partição.Aplique quando a opção de partição for DynamicRange. Se utilizar uma consulta para recuperar os dados de origem, inclua ?DfDynamicRangePartitionCondition na cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL. |
Não |
| partiçãoLimiteSuperior | O valor máximo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para determinar o intervalo da partição, não para filtrar as linhas da tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Aplique quando a opção de partição for DynamicRange. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL. |
Não |
| partiçãoLowerBound | O valor mínimo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para determinar o intervalo da partição, não para filtrar as linhas da tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Aplique quando a opção de partição for DynamicRange. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL. |
Não |
Tenha em atenção os seguintes pontos:
- Se sqlReaderQuery for especificado para SqlSource, a atividade de cópia executa esta consulta contra a fonte SQL Server para obter os dados. Você também pode especificar um procedimento armazenado especificando sqlReaderStoredProcedureName e storedProcedureParameters se o procedimento armazenado tiver parâmetros.
- Ao usar o procedimento armazenado na origem para recuperar dados, observe se o procedimento armazenado for projetado como retornando esquema diferente quando um valor de parâmetro diferente for passado, você poderá encontrar falha ou ver um resultado inesperado ao importar esquema da interface do usuário ou ao copiar dados para o banco de dados SQL com a criação automática de tabelas.
Exemplo: Usar consulta SQL
"activities":[
{
"name": "CopyFromSQLServer",
"type": "Copy",
"inputs": [
{
"referenceName": "<SQL Server input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "SqlSource",
"sqlReaderQuery": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Exemplo: Usar um procedimento armazenado
"activities":[
{
"name": "CopyFromSQLServer",
"type": "Copy",
"inputs": [
{
"referenceName": "<SQL Server input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "SqlSource",
"sqlReaderStoredProcedureName": "CopyTestSrcStoredProcedureWithParameters",
"storedProcedureParameters": {
"stringData": { "value": "str3" },
"identifier": { "value": "$$Text.Format('{0:yyyy}', <datetime parameter>)", "type": "Int"}
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
A definição de procedimento armazenado
CREATE PROCEDURE CopyTestSrcStoredProcedureWithParameters
(
@stringData varchar(20),
@identifier int
)
AS
SET NOCOUNT ON;
BEGIN
select *
from dbo.UnitTestSrcTable
where dbo.UnitTestSrcTable.stringData != stringData
and dbo.UnitTestSrcTable.identifier != identifier
END
GO
SQL Server como sumidouro
Gorjeta
Saiba mais sobre os comportamentos de escrita suportados, configurações e melhores práticas em Melhores práticas para carregar dados em SQL Server.
Para copiar dados para SQL Server, defina o tipo de sink na atividade de cópia para SqlSink. As seguintes propriedades são suportadas na seção de destino da atividade de cópia:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type do coletor de atividade de cópia deve ser definida como SqlSink. | Sim |
| preCopyScript | Esta propriedade especifica uma consulta SQL para a atividade de cópia a executar antes de escrever dados no SQL Server. É invocado apenas uma vez para cada execução de cópia. Você pode usar essa propriedade para limpar os dados pré-carregados. | Não |
| opçãoTabela | Especifica se a tabela de destino deve ser criada automaticamente se não existir, com base no esquema de origem. A criação automática de tabelas não é suportada quando o coletor especifica o procedimento armazenado. Os valores permitidos são: none (padrão), autoCreate. |
Não |
| sqlWriterStoredProcedureName | O nome do procedimento armazenado que define como aplicar dados de origem em uma tabela de destino. Este procedimento armazenado é invocado por lote. Para operações que são executadas apenas uma vez e não têm nada a ver com dados de origem, por exemplo, excluir ou truncar, use a preCopyScript propriedade.Veja o exemplo de Invocar um procedimento armazenado a partir de um destino SQL. |
Não |
| procedimentoArmazenadoTabelaTipoNomeDoParâmetro | O nome do parâmetro do tipo de tabela especificado no procedimento armazenado. | Não |
| sqlWriterTableType | O nome do tipo de tabela a ser usado no procedimento armazenado. A atividade de cópia torna os dados que estão sendo movidos disponíveis em uma tabela temporária com esse tipo de tabela. O código de procedimento armazenado pode mesclar os dados que estão sendo copiados com os dados existentes. | Não |
| parâmetrosDeProcedimentoArmazenado | Parâmetros para o procedimento armazenado. Os valores permitidos são pares de nome e valor. Os nomes e o invólucro dos parâmetros devem corresponder aos nomes e invólucros dos parâmetros do procedimento armazenado. |
Não |
| writeBatchSize | Número de linhas a serem inseridas na tabela SQL por lote. Os valores permitidos são inteiros para o número de linhas. Por padrão, o serviço determina dinamicamente o tamanho de lote apropriado com base no tamanho da linha. |
Não |
| writeBatchTimeout | O tempo de espera para concluir a operação de inserção, upsert e procedimento armazenado antes de atingir o tempo limite. Os valores permitidos são para o período de tempo. Um exemplo é "00:30:00" por 30 minutos. Se nenhum valor for especificado, o tempo limite padrão será "00:30:00". |
Não |
| Máximo de conexões simultâneas (maxConcurrentConnections) | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | Não |
| WriteBehavior | Especifique o comportamento de escrita para a atividade de cópia para carregar dados na base de dados do SQL Server. O valor permitido é Inserir e Upsert. Por padrão, o serviço usa inserção para carregar dados. |
Não |
| upsertSettings | Especifique o grupo de configurações para o comportamento de gravação. Aplique quando a opção WriteBehavior for Upsert. |
Não |
Em upsertSettings: |
||
| useTempDB | Especifique se deseja usar a tabela temporária global ou a tabela física como a tabela provisória para upsert. Por padrão, o serviço usa a tabela temporária global como a tabela provisória. valor é true. |
Não |
| interimSchemaName | Especifique o esquema provisório para criar uma tabela provisória se a tabela física for usada. Nota: o usuário precisa ter a permissão para criar e excluir tabela. Por padrão, a tabela temporária compartilhará o mesmo esquema da tabela de destino. Aplique quando a opção useTempDB for False. |
Não |
| chaves | Especifique os nomes das colunas para identificação de linha exclusiva. Uma única chave ou uma série de chaves podem ser usadas. Se não for especificado, a chave primária será usada. | Não |
Exemplo 1: Acrescentar dados
"activities":[
{
"name": "CopyToSQLServer",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<SQL Server output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "SqlSink",
"tableOption": "autoCreate",
"writeBatchSize": 100000
}
}
}
]
Exemplo 2: Invocar um procedimento armazenado durante a cópia
Saiba mais detalhes em Invocar um procedimento armazenado a partir de um destino SQL.
"activities":[
{
"name": "CopyToSQLServer",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<SQL Server output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "SqlSink",
"sqlWriterStoredProcedureName": "CopyTestStoredProcedureWithParameters",
"storedProcedureTableTypeParameterName": "MyTable",
"sqlWriterTableType": "MyTableType",
"storedProcedureParameters": {
"identifier": { "value": "1", "type": "Int" },
"stringData": { "value": "str1" }
}
}
}
}
]
Exemplo 3: Inserir ou atualizar dados
"activities":[
{
"name": "CopyToSQLServer",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<SQL Server output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "SqlSink",
"tableOption": "autoCreate",
"writeBehavior": "upsert",
"upsertSettings": {
"useTempDB": true,
"keys": [
"<column name>"
]
},
}
}
}
]
Cópia paralela do banco de dados SQL
O conector SQL Server na atividade de cópia fornece particionamento de dados incorporado para copiar dados em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.
Quando ativas a cópia particionada, a atividade de cópia executa consultas paralelas na tua fonte do SQL Server para carregar os dados por partições. O grau paralelo é controlado pela configuração parallelCopies na atividade de cópia. Por exemplo, se definir parallelCopies como quatro, o serviço gera e executa simultaneamente quatro consultas com base na opção de partição e definições especificadas, e cada consulta recupera uma parte dos dados do seu SQL Server.
Recomenda-se ativar a cópia paralela com particionamento de dados, especialmente quando carrega grandes quantidades de dados do seu SQL Server. A seguir estão sugeridas configurações para diferentes cenários. Ao copiar dados para o armazenamento de dados baseado em arquivo, é recomendável gravar em uma pasta como vários arquivos (especifique apenas o nome da pasta), caso em que o desempenho é melhor do que gravar em um único arquivo.
| Cenário | Configurações sugeridas |
|---|---|
| Carga total a partir de uma tabela grande, com partições físicas. |
Opção de partição: Partições físicas da tabela. Durante a execução, o serviço deteta automaticamente as partições físicas e copia os dados por partições. Para verificar se a sua tabela tem partição física ou não, pode consultar esta consulta. |
| Carga completa a partir de uma tabela grande, sem partições físicas, mas com uma coluna de tipo inteiro ou datetime para particionamento de dados. |
Opções de partição: Partição de intervalo dinâmico. Coluna de partição (opcional): especifique a coluna usada para particionar dados. Se não for especificado, a coluna de chave primária será usada. Limite superior da partição e limite inferior da partição (opcional): Especifique se deseja determinar o passo da partição. Isso não é para filtrar as linhas na tabela, todas as linhas na tabela serão particionadas e copiadas. Se não for especificado, a atividade de cópia deteta automaticamente os valores e pode levar muito tempo, dependendo dos valores MIN e MAX. Recomenda-se fornecer limite superior e limite inferior. Por exemplo, se a coluna de partição "ID" tiver valores que variam de 1 a 100 e você definir o limite inferior como 20 e o limite superior como 80, com cópia paralela como 4, o serviço recuperará dados por 4 partições - IDs no intervalo <=20, [21, 50], [51, 80] e >=81, respectivamente. |
| Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, mas com uma coluna do tipo inteiro ou de data ou data/hora para particionamento dos dados. |
Opções de partição: Partição de intervalo dinâmico. Consulta: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>.Coluna de partição: especifique a coluna usada para particionar dados. Limite superior da partição e limite inferior da partição (opcional): Especifique se deseja determinar o passo da partição. Isso não é para filtrar as linhas na tabela, todas as linhas no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Por exemplo, se a coluna de partição "ID" tiver valores que variam de 1 a 100 e você definir o limite inferior como 20 e o limite superior como 80, com cópia paralela como 4, o serviço recuperará dados por 4 partições - IDs no intervalo <=20, [21, 50], [51, 80] e >=81, respectivamente. Aqui estão mais consultas de exemplo para diferentes cenários: 1. Consulte toda a tabela: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition2. Consulta de uma tabela com seleção de colunas e filtros adicionais na cláusula WHERE: SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>3. Consulta com subconsultas: SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>4. Consulta com partição em subconsulta: SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T |
Práticas recomendadas para carregar dados com a opção de partição:
- Escolha uma coluna distinta como coluna de partição (como chave primária ou chave exclusiva) para evitar distorção de dados.
- Se a tabela tiver partição incorporada, use a opção de partição "Partições físicas da tabela" para obter um melhor desempenho.
- Se usar Azure Integration Runtime para copiar dados, pode definir "Unidades de Integração de Dados (DIU)" (>4) maiores para utilizar mais recursos computacionais. Verifique os cenários aplicáveis lá.
- "Grau de paralelismo de cópia controla os números de partição, estabelecer este número demasiado grande pode por vezes prejudicar o desempenho, recomenda-se definir este número como (DIU ou número de nós IR auto-hospedados) * (2 a 4)."
Exemplo: carga completa a partir de uma tabela grande com partições físicas
"source": {
"type": "SqlSource",
"partitionOption": "PhysicalPartitionsOfTable"
}
Exemplo: consulta com partição de intervalo dinâmico
"source": {
"type": "SqlSource",
"query": "SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>",
"partitionOption": "DynamicRange",
"partitionSettings": {
"partitionColumnName": "<partition_column_name>",
"partitionUpperBound": "<upper_value_of_partition_column (optional) to decide the partition stride, not as data filter>",
"partitionLowerBound": "<lower_value_of_partition_column (optional) to decide the partition stride, not as data filter>"
}
}
Exemplo de consulta para verificar a partição física
SELECT DISTINCT s.name AS SchemaName, t.name AS TableName, pf.name AS PartitionFunctionName, c.name AS ColumnName, iif(pf.name is null, 'no', 'yes') AS HasPartition
FROM sys.tables AS t
LEFT JOIN sys.objects AS o ON t.object_id = o.object_id
LEFT JOIN sys.schemas AS s ON o.schema_id = s.schema_id
LEFT JOIN sys.indexes AS i ON t.object_id = i.object_id
LEFT JOIN sys.index_columns AS ic ON ic.partition_ordinal > 0 AND ic.index_id = i.index_id AND ic.object_id = t.object_id
LEFT JOIN sys.columns AS c ON c.object_id = ic.object_id AND c.column_id = ic.column_id
LEFT JOIN sys.partition_schemes ps ON i.data_space_id = ps.data_space_id
LEFT JOIN sys.partition_functions pf ON pf.function_id = ps.function_id
WHERE s.name='[your schema]' AND t.name = '[your table name]'
Se a tabela tiver partição física, você verá "HasPartition" como "sim" como a seguir.
Melhores práticas para carregar dados no SQL Server
Quando copias dados para o SQL Server, podes precisar de comportamentos de escrita diferentes:
- Acrescentar: Meus dados de origem têm apenas novos registros.
- Upsert: Meus dados de origem têm inserções e atualizações.
- Substituir: Quero recarregar toda a tabela de dimensões de cada vez.
- Escrever com lógica personalizada: preciso de processamento extra antes da inserção final na tabela de destino.
Consulte as respetivas seções para saber como configurar e práticas recomendadas.
Acrescentar dados
Anexar dados é o comportamento padrão deste conector de sink do SQL Server. O serviço faz uma inserção em massa para gravar na sua tabela de forma eficiente. Você pode configurar a origem e o coletor de acordo com a atividade de cópia.
Inserir ou atualizar dados
A atividade de cópia agora suporta carregar dados nativamente numa tabela temporária de base de dados e depois atualizar os dados na tabela de destino se a chave existir e, caso contrário, inserir novos dados. Para saber mais sobre as definições do upsert nas atividades de cópia, veja SQL Server como um sumidouro.
Substituir a tabela inteira
Você pode configurar a propriedade preCopyScript em um coletor de atividade de cópia. Nesse caso, para cada atividade de cópia executada, o serviço executa o script primeiro. Em seguida, ele executa a cópia para inserir os dados. Por exemplo, para substituir a tabela inteira pelos dados mais recentes, especifique um script para primeiro excluir todos os registros antes de carregar em massa os novos dados da fonte.
Gravar dados com lógica personalizada
As etapas para gravar dados com lógica personalizada são semelhantes às descritas na seção Upsert dados. Quando precisar aplicar processamento extra antes da inserção final dos dados de origem na tabela de destino, você poderá carregar em uma tabela de preparo e, em seguida, invocar a atividade de procedimento armazenado ou invocar um procedimento armazenado no coletor de atividade de cópia para aplicar dados.
Invocar um procedimento armazenado a partir de um coletor SQL
Quando copia dados para a base de dados SQL Server, também pode configurar e invocar um procedimento armazenado especificado pelo utilizador com parâmetros adicionais em cada lote da tabela de origem. O recurso de procedimento armazenado tira partido dos parâmetros com valor de tabela. Observe que o serviço encapsula automaticamente o procedimento armazenado em sua própria transação, portanto, qualquer transação criada dentro do procedimento armazenado se tornará uma transação aninhada e poderá ter implicações para o tratamento de exceções.
Você pode usar um procedimento armazenado quando os mecanismos de cópia internos não atendem à finalidade. Um exemplo é quando você deseja aplicar processamento extra antes da inserção final dos dados de origem na tabela de destino. Alguns exemplos de processamento extra são quando você deseja mesclar colunas, procurar valores adicionais e inserir em mais de uma tabela.
O exemplo seguinte mostra como usar um procedimento armazenado para fazer um upsert numa tabela na base de dados do SQL Server. Suponha que os dados de entrada e a tabela de destino Marketing tenham três colunas: ProfileID, State e Category. Faça o upsert com base na coluna ProfileID e aplique-o apenas para uma categoria específica chamada "ProductA".
Em seu banco de dados, defina o tipo de tabela com o mesmo nome de sqlWriterTableType. O esquema do tipo de tabela é o mesmo que o esquema retornado pelos dados de entrada.
CREATE TYPE [dbo].[MarketingType] AS TABLE( [ProfileID] [varchar](256) NOT NULL, [State] [varchar](256) NOT NULL, [Category] [varchar](256) NOT NULL )Em seu banco de dados, defina o procedimento armazenado com o mesmo nome de sqlWriterStoredProcedureName. Ele processa dados de entrada da sua fonte especificada e integra na tabela de saída. O nome do parâmetro do tipo de tabela no procedimento armazenado é o mesmo que tableName definido no conjunto de dados.
CREATE PROCEDURE spOverwriteMarketing @Marketing [dbo].[MarketingType] READONLY, @category varchar(256) AS BEGIN MERGE [dbo].[Marketing] AS target USING @Marketing AS source ON (target.ProfileID = source.ProfileID and target.Category = @category) WHEN MATCHED THEN UPDATE SET State = source.State WHEN NOT MATCHED THEN INSERT (ProfileID, State, Category) VALUES (source.ProfileID, source.State, source.Category); ENDDefina a seção do coletor SQL na atividade de cópia da seguinte maneira:
"sink": { "type": "SqlSink", "sqlWriterStoredProcedureName": "spOverwriteMarketing", "storedProcedureTableTypeParameterName": "Marketing", "sqlWriterTableType": "MarketingType", "storedProcedureParameters": { "category": { "value": "ProductA" } } }
Mapeando propriedades de fluxo de dados
Ao transformar dados no mapeamento do fluxo de dados, pode ler e escrever em tabelas a partir do SQL Server Database. Para obter mais informações, consulte a transformação de origem e a transformação de coletor no mapeamento de fluxos de dados.
Nota
Para aceder a SQL Server on-premise, precisa de usar o Azure Data Factory ou o Synapse workspace Managed Rede Virtual usando um endpoint privado. Consulte este tutorial para obter etapas detalhadas.
Transformação da fonte
A tabela abaixo lista as propriedades suportadas pelo código-fonte do SQL Server. Você pode editar essas propriedades na guia Opções de origem .
| Nome | Descrição | Obrigatório | Valores permitidos | Propriedade do script de fluxo de dados |
|---|---|---|---|---|
| Tabela | Se você selecionar Tabela como entrada, o fluxo de dados buscará todos os dados da tabela especificada no conjunto de dados. | Não | - | - |
| Query | Se você selecionar Consulta como entrada, especifique uma consulta SQL para buscar dados da origem, que substituirá qualquer tabela especificada no conjunto de dados. Usar consultas é uma ótima maneira de reduzir linhas para testes ou pesquisas. A cláusula Order By não é suportada, mas você pode definir uma instrução SELECT FROM completa. Você também pode usar funções de tabela definidas pelo usuário. select * from udfGetData() é um UDF em SQL que retorna uma tabela que você pode usar no fluxo de dados. Exemplo de consulta: Select * from MyTable where customerId > 1000 and customerId < 2000 |
Não | String | consulta |
| Tamanho do lote | Especifique um tamanho de lote para fragmentar dados grandes em leituras. | Não | Número inteiro | batchSize |
| Nível de isolamento | Escolha um dos seguintes níveis de isolamento: - Ler Comprometido - Ler Não confirmado (padrão) - Leitura repetível - Serializável - Nenhum (ignorar o nível de isolamento) |
Não | READ_COMMITTED READ_UNCOMMITTED REPEATABLE_READ (leitura repetível) SERIALIZÁVEL NENHUM |
Nível de isolamento |
| Ativar extração incremental | Use esta opção para indicar ao ADF que processe apenas as linhas que foram alteradas desde a última execução do pipeline. | Não | - | - |
| Coluna de data incremental | Ao utilizar o recurso de extração incremental, deve selecionar a coluna de data/hora que deseja usar como referência na tabela de origem. | Não | - | - |
| Habilitar captura nativa de dados de alteração (visualização) | Use esta opção para indicar ao ADF que processe apenas os dados delta capturados pela tecnologia de captura de dados de alteração do SQL desde a última vez que o pipeline foi executado. Com essa opção, os dados delta, incluindo inserção de linha, atualização e exclusão, serão carregados automaticamente sem a necessidade de qualquer coluna de data incremental. É necessário ativar a captura de dados alterados no SQL Server antes de usar esta opção no ADF. Para obter mais informações sobre esta opção no ADF, consulte captura de dados de alterações nativa. | Não | - | - |
| Comece a ler desde o início | Definir essa opção com extração incremental instruirá o ADF a ler todas as linhas na primeira execução de um pipeline com a extração incremental ativada. | Não | - | - |
Gorjeta
A expressão de tabela comum (CTE) em SQL não é suportada no modo de consulta de fluxo de dados de mapeamento, porque para usar este modo, é necessário que as consultas possam ser utilizadas na cláusula SQL FROM, mas as CTEs não são compatíveis com isso. Para usar CTEs, você precisa criar um procedimento armazenado usando a seguinte consulta:
CREATE PROC CTESP @query nvarchar(max)
AS
BEGIN
EXECUTE sp_executesql @query;
END
Em seguida, use o
Exemplo de script de código fonte do SQL Server
Quando usa SQL Server como tipo de origem, o script de fluxo de dados associado é:
source(allowSchemaDrift: true,
validateSchema: false,
isolationLevel: 'READ_UNCOMMITTED',
query: 'select * from MYTABLE',
format: 'query') ~> SQLSource
Transformação do lavatório
A tabela abaixo lista as propriedades suportadas pelo SQL Server sink. Você pode editar essas propriedades na guia Opções do coletor .
| Nome | Descrição | Obrigatório | Valores permitidos | Propriedade do script de fluxo de dados |
|---|---|---|---|---|
| Método de atualização | Especifique quais operações são permitidas no destino do banco de dados. O padrão é permitir apenas inserções. Para atualizar, inserir ou excluir linhas, é necessária uma transformação Alter de linha para marcar linhas para essas ações. |
Sim |
true ou false |
apagável inserível atualizável Passível de inserção e atualização |
| Colunas-chave | Para atualizações, inserções/atualizações e eliminações, as colunas chave devem ser definidas para determinar qual linha alterar. O nome da coluna que o utilizador escolher como chave será usado como parte das operações subsequentes de atualização, upsert e eliminação. Portanto, você deve escolher uma coluna que existe no mapeamento de coletor. |
Não | Matriz | chaves |
| Ignorar colunas chave | Se desejar não escrever o valor na coluna-chave, selecione "Ignorar a escrita nas colunas-chave". | Não |
true ou false |
skipKeyWrites |
| Ação da tabela | Determina se todas as linhas da tabela de destino devem ser recriadas ou removidas antes de serem escritas. - Nenhuma: Nenhuma ação será feita à tabela. - Recriar: A tabela será eliminada e recriada. Necessário apenas ao criar uma nova tabela dinamicamente. - Truncate: Todas as linhas da tabela de destino serão removidas. |
Não |
true ou false |
recriar truncar |
| Tamanho do lote | Especifique quantas linhas estão sendo escritas em cada lote. Lotes maiores melhoram a compactação e a otimização da memória, mas correm o risco de exceções de falta de memória ao armazenar dados em cache. | Não | Número inteiro | batchSize |
| Scripts pré e pós SQL | Especifique scripts SQL de várias linhas que serão executados antes (pré-processamento) e depois que os dados (pós-processamento) forem gravados no banco de dados do coletor. | Não | String | pré-SQLs postSQLs |
Gorjeta
- Recomenda-se dividir scripts de lote único que contenham vários comandos em lotes distintos.
- Somente instruções DDL (Data Definition Language) e DML (Data Manipulation Language) que retornam uma contagem de atualização simples podem ser executadas como parte de um lote. Saiba mais em Executando operações em lote
Exemplo de script de sink no SQL Server
Quando usa o SQL Server como tipo sink, o script de fluxo de dados associado é:
IncomingStream sink(allowSchemaDrift: true,
validateSchema: false,
deletable:false,
insertable:true,
updateable:true,
upsertable:true,
keys:['keyColumn'],
format: 'table',
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true) ~> SQLSink
Mapeamento de tipos de dados para SQL Server
Quando copia dados do e para o SQL Server, são usados os seguintes mapeamentos dos tipos de dados do SQL Server para os tipos de dados intermédios do Azure Data Factory. Os pipelines de Synapse, que implementam o Data Factory, usam os mesmos mapeamentos. Para saber como a atividade de cópia mapeia o esquema de origem e o tipo de dados para o coletor, consulte Mapeamentos de esquema e tipo de dados.
| Tipo de dado SQL Server | Tipo de dados provisórios do Data Factory |
|---|---|
| bigint | Int64 |
| binário | Byte[] |
| bit | booleano |
| char | Cadeia de caracteres, Array de caracteres |
| data | DateTime |
| Data e Hora | DateTime |
| datetime2 | DateTime |
| Datetimeoffset | DateTimeOffset |
| Decimal | Decimal |
| Atributo FILESTREAM (varbinary(max)) | Byte[] |
| Flutuante | Duplo |
| imagem | Byte[] |
| número inteiro | Int32 |
| dinheiro | Decimal |
| Nchar | Cadeia de caracteres, Array de caracteres |
| ntexto | Cadeia de caracteres, Array de caracteres |
| numérico | Decimal |
| nvarchar | Cadeia de caracteres, Array de caracteres |
| real | Única |
| versão de linha | Byte[] |
| smalldatetime | DateTime |
| smallint | Int16 |
| pequena quantia | Decimal |
| sql_variant | Objeto |
| enviar SMS | Cadeia de caracteres, Array de caracteres |
| tempo | TimeSpan |
| carimbo de data/hora | Byte[] |
| tinyint | Int16 |
| identificador único | GUID |
| Varbinary | Byte[] |
| varchar | Cadeia de caracteres, Array de caracteres |
| xml | String |
Nota
Para tipos de dados que correspondem ao tipo intermédio Decimal, atualmente o atividade Copy suporta precisão até 28. Se você tiver dados que exijam precisão maior que 28, considere converter em uma cadeia de caracteres em uma consulta SQL.
Ao copiar dados do SQL Server usando o Azure Data Factory, o tipo de dado bit é mapeado para o tipo de dados intermédio booleano. Se tiver dados que necessitam ser mantidos como o tipo de dados bit, utilize consultas com T-SQL CAST ou CONVERT.
Propriedades da atividade de consulta
Para saber detalhes sobre as propriedades, verifique Atividade de pesquisa.
Propriedades de atividade GetMetadata
Para saber detalhes sobre as propriedades, verifique a atividade GetMetadata
Utilização de Always Encrypted
Quando copiar dados de/para SQL Server com Always Encrypted, siga os passos abaixo:
Armazene a Column Master Key (CMK) em um Azure Key Vault. Saiba mais sobre como configurar o Always Encrypted usando Azure Key Vault
Certifique-se de conceder acesso ao cofre de chaves onde a Chave Mestra de Coluna (CMK) está armazenada. Consulte este artigo para obter as permissões necessárias.
Crie um serviço vinculado para se conectar ao seu banco de dados SQL e habilite a função 'Always Encrypted' usando a identidade gerida ou o principal de serviço.
Nota
SQL Server Always Encrypted suporta os seguintes cenários:
- Os armazenamentos de dados de origem ou coletor estão usando identidade gerenciada ou entidade de serviço como tipo de autenticação de provedor de chave.
- Os armazenamentos de dados de fonte e destino estão usando identidade gerida como tipo de autenticação do fornecedor de chaves.
- Os armazenamentos de dados de fonte e destino estão usando o mesmo serviço principal como tipo de autenticação do provedor de chaves.
Nota
Atualmente, SQL Server Always Encrypted é suportado apenas para transformação de fonte em fluxos de dados de mapeamento.
Captura nativa de dados de alteração
O Azure Data Factory pode suportar capacidades nativas de captura de dados de alterações para SQL Server, SQL do Azure DB e SQL do Azure MI. Os dados alterados, incluindo inserção de linha, atualização e exclusão em repositórios SQL, podem ser detetados e extraídos automaticamente pelo fluxo de dados de mapeamento do ADF. Com a experiência sem código no mapeamento de fluxo de dados, os usuários podem facilmente obter o cenário de replicação de dados de repositórios SQL anexando um banco de dados como armazenamento de destino. Além disso, os utilizadores podem também compor qualquer lógica de transformação de dados para conseguir um cenário de ETL incremental utilizando repositórios SQL.
Certifique-se de manter o pipeline e o nome da atividade inalterados, para que o ponto de verificação possa ser registado pelo ADF e assim você obtenha automaticamente os dados alterados da última execução. Se alterar o nome do pipeline ou o nome da atividade, o ponto de verificação será redefinido, o que o obriga a começar do início ou a aplicar as alterações a partir de agora na próxima execução do pipeline. Caso deseje alterar o nome do pipeline ou o nome da atividade, mas queira manter o ponto de verificação para obter dados modificados automaticamente da última execução, utilize sua própria chave de ponto de verificação na atividade de fluxo de dados para alcançar isso.
Quando você depura o pipeline, esse recurso funciona da mesma forma. Lembre-se de que o ponto de verificação será redefinido quando você atualizar o navegador durante a execução de depuração. Depois de estar satisfeito com o resultado da execução de depuração do pipeline, pode publicar e acionar o pipeline. No momento em que você aciona pela primeira vez seu pipeline publicado, ele é reiniciado automaticamente desde o início ou recebe alterações a partir de agora.
Na seção de monitoramento, você sempre tem a chance de executar novamente um pipeline. Quando você está fazendo isso, os dados alterados são sempre capturados do ponto de verificação anterior da execução do pipeline selecionado.
Exemplo 1:
Quando você encadeia diretamente uma transformação de origem referenciada ao conjunto de dados habilitado para SQL CDC com uma transformação de coletor referenciada a um banco de dados em um fluxo de dados de mapeamento, as alterações ocorridas na origem SQL serão aplicadas automaticamente ao banco de dados de destino, para que você obtenha facilmente o cenário de replicação de dados entre bancos de dados. Você pode usar o método update na transformação do coletor para selecionar se deseja permitir inserir, permitir atualização ou permitir exclusão no banco de dados de destino. O script de exemplo no mapeamento de fluxo de dados é como abaixo.
source(output(
id as integer,
name as string
),
allowSchemaDrift: true,
validateSchema: false,
enableNativeCdc: true,
netChanges: true,
skipInitialLoad: false,
isolationLevel: 'READ_UNCOMMITTED',
format: 'table') ~> source1
source1 sink(allowSchemaDrift: true,
validateSchema: false,
deletable:true,
insertable:true,
updateable:true,
upsertable:true,
keys:['id'],
format: 'table',
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true,
errorHandlingOption: 'stopOnFirstError') ~> sink1
Exemplo 2:
Se quiser habilitar o cenário de ETL em vez da replicação de dados entre bancos de dados via SQL CDC, você pode usar expressões no mapeamento de fluxo de dados, incluindo isInsert(1), isUpdate(1) e isDelete(1) para diferenciar as linhas com diferentes tipos de operação. A seguir está um dos scripts de exemplo para mapear o fluxo de dados na derivação de uma coluna com o valor: 1 para indicar linhas inseridas, 2 para indicar linhas atualizadas e 3 para indicar linhas excluídas para transformações downstream para processar os dados delta.
source(output(
id as integer,
name as string
),
allowSchemaDrift: true,
validateSchema: false,
enableNativeCdc: true,
netChanges: true,
skipInitialLoad: false,
isolationLevel: 'READ_UNCOMMITTED',
format: 'table') ~> source1
source1 derive(operationType = iif(isInsert(1), 1, iif(isUpdate(1), 2, 3))) ~> derivedColumn1
derivedColumn1 sink(allowSchemaDrift: true,
validateSchema: false,
skipDuplicateMapInputs: true,
skipDuplicateMapOutputs: true) ~> sink1
Limitação conhecida:
- Somente as alterações líquidas do SQL CDC serão carregadas pelo ADF via cdc.fn_cdc_get_net_changes_.
Resolver problemas de ligação
Configure a sua instância do SQL Server para aceitar ligações remotas. Inicie SQL Server Management Studio, clique com o botão direito server e selecione Properties. Selecione Conexões na lista e marque a caixa de seleção Permitir conexões remotas a este servidor .
Para obter etapas detalhadas, consulte Configurar a opção de configuração do servidor de acesso remoto.
Comece Gestor de Configuração do SQL Server. Expanda SQL Server Network Configuration para a instância que pretende e selecione Protocols for MSSQLSERVER. Os protocolos aparecem no painel direito. Habilite o TCP/IP clicando com o botão direito do mouse em TCP/IP e selecionando Ativar.
Para obter mais informações e formas alternativas de ativar o protocolo TCP/IP, consulte Ativar ou desativar um protocolo de rede de servidor.
Na mesma janela, clique duas vezes em TCP/IP para iniciar a janela Propriedades de TCP/IP.
Mude para o separador Endereços IP. Desloque-se para baixo para ver a secção IPAll. Anote a porta TCP. O padrão é 1433.
Crie uma regra para o Windows Firewall na máquina para permitir o tráfego recebido através desta porta.
Verify connection: Para ligar a SQL Server usando um nome totalmente qualificado, use SQL Server Management Studio de uma máquina diferente. Um exemplo é
"<machine>.<domain>.corp.<company>.com,1433".
Atualizar a versão do SQL Server
Para atualizar a versão do SQL Server, na página Editar serviço ligado, selecione Recomendado em Versão e configure o serviço ligado consultando as Propriedades do serviço ligado para a versão recomendada.
Diferenças entre a versão recomendada e a versão herdada
A tabela abaixo mostra as diferenças entre o SQL Server usando a versão recomendada e a versão legada.
| Versão recomendada | Versão antiga |
|---|---|
Suporte TLS 1.3 via encrypt como strict. |
TLS 1.3 não é suportado. |
Conteúdos relacionados
Para obter uma lista de armazenamentos de dados suportados como fontes e destinos pela atividade de cópia, consulte Armazenamentos de dados suportados.