Python tâche de script pour les travaux

Utilisez le script Python pour exécuter un fichier Python.

Configurer une tâche de script Python

Avant de commencer, vous devez charger votre script Python dans un emplacement accessible à l’utilisateur qui configure le travail. Databricks recommande d’utiliser des fichiers d’espace de travail pour Python scripts. Consultez l’article Que sont les fichiers d’espace de travail ?.

Note

L’interface utilisateur des travaux affiche les options de manière dynamique en fonction d’autres paramètres configurés.

Databricks recommande de ne pas stocker du code ou des données à l’aide de racine ou de montages DBFS. Au lieu de cela, vous pouvez migrer Python scripts vers des fichiers ou des volumes d’espace de travail ou utiliser des URI pour accéder au stockage d’objets cloud.

Pour commencer le processus de configuration d'une tâche Python script :

  1. Accédez à l’onglet Tâches de l’interface utilisateur des travaux.
  2. Cliquez sur Ajouter une tâche.
  3. Entrez un nom dans le champ Nom de la tâche .
  4. Dans le menu déroulant Type, sélectionnez Python script.

Configurer la source

Dans le menu déroulant Source, sélectionnez un emplacement pour le script Python en utilisant l’une des options suivantes.

Workspace

Utilisez Workspace pour configurer un script de Python stocké à l’aide de fichiers d’espace de travail.

  1. Cliquez sur le champ Chemin d’accès. La boîte de dialogue Select Python File s’affiche.
  2. Accédez au script Python, cliquez pour mettre en surbrillance le fichier, puis cliquez sur Confirm.

Note

Vous pouvez utiliser cette option pour configurer une tâche sur un script Python stocké dans un dossier Databricks Git. Databricks recommande d’utiliser l’option Fournisseur Git et un référentiel Git distant pour versionner des actifs programmés avec des tâches.

DBFS/ADLS

Utilisez DBFS/ADLS pour configurer un script Python stocké dans un volume, un emplacement de stockage d’objets cloud ou la racine DBFS.

Databricks recommande de stocker des scripts Python dans des volumes de catalogue Unity ou un stockage d’objets cloud.

Dans le champ Path, entrez l’URI de votre script Python. Par exemple, dbfs:/path/to/script.py ou abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py.

Fournisseur Git

Utilisez Git provider pour configurer un script de Python stocké dans un référentiel Git distant.

Les options affichées par l’interface utilisateur dépendent de la configuration ou non d’un fournisseur Git à un autre emplacement. Un seul référentiel Git distant peut être utilisé pour toutes les tâches d’un travail. Voir l'utilisation de Git avec Lakeflow Jobs.

Le champ Chemin d’accès s’affiche une fois que vous avez configuré une référence Git.

Entrez le chemin relatif de votre script Python, tel que etl/bronze/ingest.py.

Important

Lorsque vous entrez le chemin relatif, ne commencez pas par / ou ./. Par exemple, si le chemin absolu du code Python auquel vous souhaitez accéder est /etl/bronze/ingest.py, entrez etl/bronze/ingest.py dans le champ Path.

Configurer des bibliothèques de calcul et les bibliothèques dépendantes

  1. Utilisez Capacité de calcul pour sélectionner ou configurer un cluster qui prend en charge la logique dans votre script.
  2. Si vous utilisez la capacité de calcul Serverless, utilisez le champ Environnement et bibliothèques pour sélectionner, modifier ou ajouter un nouvel environnement. Consultez Configurer l’environnement serverless.
  3. Pour toutes les autres configurations de calcul, cliquez sur + Ajouter sous Bibliothèques dépendantes. La boîte de dialogue Ajouter une bibliothèque dépendante apparaît.
    • Vous pouvez sélectionner une bibliothèque existante ou en charger une nouvelle.
    • Vous pouvez uniquement utiliser des bibliothèques stockées dans un emplacement pris en charge par vos configurations de calcul. Consultez la prise en charge des bibliothèques Python.
    • Chaque source de bibliothèque présente un flux différent pour la sélection ou le chargement d’une bibliothèque. Consultez Installer des bibliothèques.

Finaliser la configuration du travail

  1. (Facultatif) Configurez Parameters en tant que liste de chaînes passées en tant qu’arguments CLI au script Python. Consultez Configurer les paramètres de tâche.
  2. Cliquez sur Enregistrer la tâche.