Développer et lire des fichiers compressés au format Zip

Vous pouvez utiliser la unzip commande Bash pour développer des fichiers compressés Zip (.zip) ou des répertoires de fichiers. La commande magique %sh Azure Databricks permet d’exécuter du code Bash arbitraire, y compris la commande .

Apache Spark fournit des codecs natifs pour interagir avec les fichiers compressés au format Parquet. La plupart des fichiers Parquet écrits par Azure Databricks se terminent par .snappy.parquet, indiquant qu’ils utilisent la compression snappy.

Télécharger et décompresser le fichier

Permet curl de télécharger le fichier compressé, puis unzip de développer les données. L’exemple suivant utilise un fichier CSV zippé téléchargé à partir d’Internet. Consultez Télécharger des données à partir d’Internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Déplacer le fichier vers un volume

Maintenant, déplacez le fichier décompressé vers un volume de Unity Catalog.

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

Dans cet exemple, les données téléchargées ont un commentaire sur la première ligne et un en-tête sur la deuxième. Maintenant que vous avez déplacé et développé les données, utilisez des options standard pour lire des fichiers CSV, par exemple :

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)