Integrar o OneLake ao Azure Synapse Analytics

Azure Synapse é um serviço de análise ilimitado que reúne data warehousing corporativo e análise de Big Data. Este tutorial mostra como se conectar ao OneLake usando Azure Synapse Analytics.

Pré-requisitos

Antes de começar, verifique se você tem os seguintes itens:

Acesso a um workspace do Synapse em que você pode criar ou usar um pool do Apache Spark e executar scripts SQL.
Acesso a um lakehouse em Fabric.
O caminho do ABFS para a pasta do lakehouse Tabelas ou a tabela que você deseja consultar.

Gravar dados do Synapse usando o Apache Spark

Siga estas etapas para usar o Apache Spark para gravar dados de exemplo no OneLake de Azure Synapse Analytics.

Abra o workspace do Synapse e crie um pool do Apache Spark com seus parâmetros preferenciais.
Crie um novo notebook do Apache Spark.
Abra o notebook, defina o idioma como PySpark (Python) e conecte-o ao pool do Spark recém-criado.
Em uma aba separada, navegue até seu Microsoft Fabric Lakehouse e localize a pasta Tables de nível superior.
Clique com o botão direito do mouse na pasta Tabelas e selecione Propriedades.
Copie o caminho do ABFS do painel de propriedades.
De volta ao notebook do Azure Synapse, na primeira nova célula de código, insira o caminho do lakehouse. Esse caminho aponta para a pasta Tabelas no lakehouse em que você grava os dados de exemplo mais tarde. Execute a célula.
```
# Replace the path below with the ABFS path to your lakehouse Tables folder. 
oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
```
Em uma nova célula de código, carregue dados de um conjunto de dados aberto do Azure em um dataframe. Esse conjunto de dados é aquele que você carrega em sua lakehouse. Execute a célula.
```
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
display(yellowTaxiDf.limit(10))
```
Em uma nova célula de código, filtre, transforme ou prepare seus dados. Para esse cenário, você pode reduzir o conjunto de dados para carregamento mais rápido, unir-se a outros conjuntos de dados ou filtrar para resultados específicos. Execute a célula.
```
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
display(filteredTaxiDf.limit(10))
```
Em uma nova célula de código, usando o caminho do OneLake, escreva seu dataframe filtrado em uma nova tabela Delta-Parquet em seu Fabric lakehouse. Execute a célula.
```
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
```
Por fim, em uma nova célula de código, teste se os dados foram gravados com êxito lendo a nova tabela Delta do OneLake. Execute a célula.
```
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
display(lakehouseRead.limit(10))
```

Parabéns. Agora você pode ler e gravar dados no OneLake usando o Apache Spark no Azure Synapse Analytics.

Ler dados do Synapse usando SQL

Para começar, siga estas etapas para usar o serverless SQL para ler dados do OneLake no Azure Synapse Analytics.

Abra uma Fabric lakehouse e identifique uma tabela que você gostaria de consultar do Synapse.
Clique com o botão direito do mouse na tabela e selecione Propriedades.
Copie o caminho do ABFS para a tabela.
Abra o workspace do Synapse em Synapse Studio.
Crie um novo script SQL.
No editor de consultas SQL, insira a consulta a seguir, substituindo ABFS_PATH_HERE pelo caminho que você copiou anteriormente.
```
SELECT TOP 10 *
FROM OPENROWSET(
BULK 'ABFS_PATH_HERE',
FORMAT = 'delta') as rows;
```
Execute a consulta para exibir as 10 principais linhas da tabela.

Parabéns. Agora você pode ler dados do OneLake usando o SQL sem servidor em Azure Synapse Analytics.

Integrar o OneLake ao Gerenciador de Armazenamento do Azure

Comentários

Esta página foi útil?

Last updated on 2026-04-08