Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Azure Synapse est un service analytique illimité qui regroupe l’entreposage de données d’entreprise et l’analytique Big Data. Ce tutoriel montre comment se connecter à OneLake à l’aide de Azure Synapse Analytics.
Prerequisites
Avant de commencer, vérifiez que vous disposez des éléments suivants :
- Accédez à un espace de travail Synapse dans lequel vous pouvez créer ou utiliser un pool Apache Spark et exécuter des scripts SQL.
- Accès à un lakehouse dans Fabric.
- le chemin d’accès ABFS pour le dossier Tables du lakehouse ou la table que vous souhaitez interroger.
Écrire des données à partir de Synapse à l’aide d’Apache Spark
Suivez ces étapes pour utiliser Apache Spark pour écrire des exemples de données dans OneLake à partir de Azure Synapse Analytics.
Ouvrez votre espace de travail Synapse et créez un pool Apache Spark avec vos paramètres préférés.
Créez un nouveau carnet de notes Apache Spark.
Ouvrez le notebook, définissez la langue sur PySpark (Python) et connectez-le à votre pool Spark nouvellement créé.
Dans un onglet distinct, accédez à votre Microsoft Fabric lakehouse et recherchez le dossier Tables de niveau supérieur.
Cliquez avec le bouton droit sur le dossier Tables et sélectionnez Propriétés.
Copiez le chemin d’accès ABFS dans le volet des propriétés.
De retour dans le bloc-notes Azure Synapse, dans la première nouvelle cellule de code, fournissez le chemin "lakehouse". Ce chemin pointe vers le dossier Tables dans le lakehouse où vous écrivez les exemples de données ultérieurement. Exécutez la cellule.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'Dans une nouvelle cellule de code, chargez des données à partir d'un ensemble de données ouvert Azure dans un dataframe. Ce jeu de données est celui que vous chargez dans votre lakehouse. Exécutez la cellule.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))Dans une nouvelle cellule de code, filtrez, transformez ou préparez vos données. Pour ce scénario, vous pouvez réduire votre jeu de données pour accélérer le chargement, la jointure avec d’autres jeux de données ou filtrer en fonction de résultats spécifiques. Exécutez la cellule.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))Dans une nouvelle cellule de code, à l’aide de votre chemin OneLake, écrivez votre trame de données filtrée dans une nouvelle table Delta-Parquet dans votre Fabric lakehouse. Exécutez la cellule.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')Enfin, dans une nouvelle cellule de code, testez que vos données ont été correctement écrites en lisant la nouvelle table Delta à partir de OneLake. Exécutez la cellule.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Félicitations. Vous pouvez maintenant lire et écrire des données dans OneLake à l’aide d’Apache Spark dans Azure Synapse Analytics.
Lire des données à partir de Synapse à l’aide de SQL
Suivez ces étapes pour utiliser SQL serverless pour lire les données de OneLake à partir de Azure Synapse Analytics.
Ouvrez un Fabric lakehouse et identifiez une table à interroger depuis Synapse.
Cliquez avec le bouton droit sur la table et sélectionnez Propriétés.
Copiez le chemin d’accès ABFS pour la table.
Ouvrez votre espace de travail Synapse dans Synapse Studio.
Un nouveau script SQL est alors créé.
Dans l’éditeur de requête SQL, entrez la requête suivante, en remplaçant
ABFS_PATH_HEREpar le chemin que vous avez copié précédemment.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;Exécutez la requête pour afficher les 10 premières lignes de votre table.
Félicitations. Vous pouvez maintenant lire des données à partir de OneLake à l’aide de SQL serverless dans Azure Synapse Analytics.