Compartilhar via


Integrar o OneLake ao Azure Synapse Analytics

Azure Synapse é um serviço de análise ilimitado que reúne data warehousing corporativo e análise de Big Data. Este tutorial mostra como se conectar ao OneLake usando Azure Synapse Analytics.

Pré-requisitos

Antes de começar, verifique se você tem os seguintes itens:

  • Acesso a um workspace do Synapse em que você pode criar ou usar um pool do Apache Spark e executar scripts SQL.
  • Acesso a um lakehouse em Fabric.
  • O caminho do ABFS para a pasta do lakehouse Tabelas ou a tabela que você deseja consultar.

Gravar dados do Synapse usando o Apache Spark

Siga estas etapas para usar o Apache Spark para gravar dados de exemplo no OneLake de Azure Synapse Analytics.

  1. Abra o workspace do Synapse e crie um pool do Apache Spark com seus parâmetros preferenciais.

    Captura de tela mostrando onde selecionar Novo na tela do pool do Apache Spark.

  2. Crie um novo notebook do Apache Spark.

  3. Abra o notebook, defina o idioma como PySpark (Python) e conecte-o ao pool do Spark recém-criado.

  4. Em uma aba separada, navegue até seu Microsoft Fabric Lakehouse e localize a pasta Tables de nível superior.

  5. Clique com o botão direito do mouse na pasta Tabelas e selecione Propriedades.

    Captura de tela mostrando onde abrir o painel de Propriedades no explorador do lakehouse.

  6. Copie o caminho do ABFS do painel de propriedades.

    Captura de tela mostrando onde copiar o caminho do ABFS.

  7. De volta ao notebook do Azure Synapse, na primeira nova célula de código, insira o caminho do lakehouse. Esse caminho aponta para a pasta Tabelas no lakehouse em que você grava os dados de exemplo mais tarde. Execute a célula.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Em uma nova célula de código, carregue dados de um conjunto de dados aberto do Azure em um dataframe. Esse conjunto de dados é aquele que você carrega em sua lakehouse. Execute a célula.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Em uma nova célula de código, filtre, transforme ou prepare seus dados. Para esse cenário, você pode reduzir o conjunto de dados para carregamento mais rápido, unir-se a outros conjuntos de dados ou filtrar para resultados específicos. Execute a célula.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Em uma nova célula de código, usando o caminho do OneLake, escreva seu dataframe filtrado em uma nova tabela Delta-Parquet em seu Fabric lakehouse. Execute a célula.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Por fim, em uma nova célula de código, teste se os dados foram gravados com êxito lendo a nova tabela Delta do OneLake. Execute a célula.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Parabéns. Agora você pode ler e gravar dados no OneLake usando o Apache Spark no Azure Synapse Analytics.

Ler dados do Synapse usando SQL

Para começar, siga estas etapas para usar o serverless SQL para ler dados do OneLake no Azure Synapse Analytics.

  1. Abra uma Fabric lakehouse e identifique uma tabela que você gostaria de consultar do Synapse.

  2. Clique com o botão direito do mouse na tabela e selecione Propriedades.

  3. Copie o caminho do ABFS para a tabela.

    Captura de tela mostrando onde copiar o caminho do ABFS.

  4. Abra o workspace do Synapse em Synapse Studio.

  5. Crie um novo script SQL.

  6. No editor de consultas SQL, insira a consulta a seguir, substituindo ABFS_PATH_HERE pelo caminho que você copiou anteriormente.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Execute a consulta para exibir as 10 principais linhas da tabela.

Parabéns. Agora você pode ler dados do OneLake usando o SQL sem servidor em Azure Synapse Analytics.