Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Azure Synapse é um serviço de análise ilimitado que reúne data warehousing corporativo e análise de Big Data. Este tutorial mostra como se conectar ao OneLake usando Azure Synapse Analytics.
Pré-requisitos
Antes de começar, verifique se você tem os seguintes itens:
- Acesso a um workspace do Synapse em que você pode criar ou usar um pool do Apache Spark e executar scripts SQL.
- Acesso a um lakehouse em Fabric.
- O caminho do ABFS para a pasta do lakehouse Tabelas ou a tabela que você deseja consultar.
Gravar dados do Synapse usando o Apache Spark
Siga estas etapas para usar o Apache Spark para gravar dados de exemplo no OneLake de Azure Synapse Analytics.
Abra o workspace do Synapse e crie um pool do Apache Spark com seus parâmetros preferenciais.
Crie um novo notebook do Apache Spark.
Abra o notebook, defina o idioma como PySpark (Python) e conecte-o ao pool do Spark recém-criado.
Em uma aba separada, navegue até seu Microsoft Fabric Lakehouse e localize a pasta Tables de nível superior.
Clique com o botão direito do mouse na pasta Tabelas e selecione Propriedades.
Copie o caminho do ABFS do painel de propriedades.
De volta ao notebook do Azure Synapse, na primeira nova célula de código, insira o caminho do lakehouse. Esse caminho aponta para a pasta Tabelas no lakehouse em que você grava os dados de exemplo mais tarde. Execute a célula.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'Em uma nova célula de código, carregue dados de um conjunto de dados aberto do Azure em um dataframe. Esse conjunto de dados é aquele que você carrega em sua lakehouse. Execute a célula.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))Em uma nova célula de código, filtre, transforme ou prepare seus dados. Para esse cenário, você pode reduzir o conjunto de dados para carregamento mais rápido, unir-se a outros conjuntos de dados ou filtrar para resultados específicos. Execute a célula.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))Em uma nova célula de código, usando o caminho do OneLake, escreva seu dataframe filtrado em uma nova tabela Delta-Parquet em seu Fabric lakehouse. Execute a célula.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')Por fim, em uma nova célula de código, teste se os dados foram gravados com êxito lendo a nova tabela Delta do OneLake. Execute a célula.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Parabéns. Agora você pode ler e gravar dados no OneLake usando o Apache Spark no Azure Synapse Analytics.
Ler dados do Synapse usando SQL
Para começar, siga estas etapas para usar o serverless SQL para ler dados do OneLake no Azure Synapse Analytics.
Abra uma Fabric lakehouse e identifique uma tabela que você gostaria de consultar do Synapse.
Clique com o botão direito do mouse na tabela e selecione Propriedades.
Copie o caminho do ABFS para a tabela.
Abra o workspace do Synapse em Synapse Studio.
Crie um novo script SQL.
No editor de consultas SQL, insira a consulta a seguir, substituindo
ABFS_PATH_HEREpelo caminho que você copiou anteriormente.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;Execute a consulta para exibir as 10 principais linhas da tabela.
Parabéns. Agora você pode ler dados do OneLake usando o SQL sem servidor em Azure Synapse Analytics.