Tutorial: Ejecución de Python en un clúster y como trabajo mediante la extensión databricks para Visual Studio Code

En este tutorial se explica cómo configurar la extensión de Databricks para Visual Studio Code y, a continuación, ejecutar Python en un clúster de Azure Databricks y como un trabajo de Azure Databricks en el área de trabajo remota. Consulte la extensión Databricks para Visual Studio Code.

Requisitos

Este tutorial requiere lo siguiente:

  • Ha instalado la extensión databricks para Visual Studio Code. Consulte Instalar la extensión de Databricks para Visual Studio Code.
  • Tiene un clúster remoto de Azure Databricks para usar. Anote el nombre del clúster. Para ver los clústeres disponibles, en la barra lateral del área de trabajo de Azure Databricks, haga clic en Compute. Consulte Computación.

Paso 1: Crear un nuevo proyecto de Databricks

En este paso, creará un nuevo proyecto de Databricks y configurará la conexión con el área de trabajo de Azure Databricks remota.

  1. Inicie Visual Studio Code y haga clic en File > Abrir carpeta y abra una carpeta vacía en el equipo de desarrollo local.
  2. En la barra lateral, haga clic en el icono del logotipo de Databricks. Se abrirá la extensión de Databricks.
  3. En la vista de configuración , haga clic en Crear configuración.
  4. Se abre la paleta de comandos para configurar el área de trabajo de Databricks. En Host de Databricks, escriba o seleccione la dirección URL para cada área de trabajo, por ejemplo, https://adb-1234567890123456.7.azuredatabricks.net.
  5. Seleccione un perfil de autenticación para el proyecto. Consulte Configurar autorización para la extensión de Databricks para Visual Studio Code.

Paso 2: Agregar información de clúster a la extensión de Databricks e iniciar el clúster

  1. Con la vista Configuración ya abierta, haga clic en Seleccionar un clúster o haga clic en el icono de engranaje (Configurar clúster).

    Configurar clúster

  2. En la paleta de comandos, seleccione el nombre del clúster que creó anteriormente.

  3. Si aún no se ha iniciado, haga clic en el icono de reproducción (Iniciar clúster).

Paso 3: Crear y ejecutar código Python

  1. Cree un archivo de código de Python local: en la barra lateral, haga clic en el icono de carpeta (Explorer).

  2. En el menú principal, haga clic en File > Nuevo archivo y elija un archivo Python. Asigne al archivo el nombre demo.py y guárdelo en la raíz del proyecto.

  3. Agregue el siguiente código al archivo y guárdelo. Este código crea y muestra los contenidos de un DataFrame de PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Haga clic en el icono Ejecutar en Databricks junto a la lista de pestañas del editor y, a continuación, haga clic en Cargar y ejecutar archivo. La salida aparece en la vista Consola de depuración.

    Cargar y ejecutar un archivo desde el icono

    En la vista Explorer, también puede hacer clic con el botón derecho en el archivo demo.py y después en Ejecutar en Databricks>Cargar y ejecutar archivo.

    Cargar y ejecutar un archivo desde el menú contextual

Paso 4: Ejecutar el código como un trabajo

Para ejecutar demo.py como un trabajo, haga clic en el icono Ejecutar en Databricks junto a la lista de pestañas del editor y, a continuación, haga clic en Ejecutar archivo como flujo de trabajo. La salida aparece en una pestaña del editor independiente junto al editor de archivos demo.py.

Ejecutar archivo como flujo de trabajo desde el icono

También puede hacer clic con el botón derecho en el archivo demo.py en el panel Explorador y, a continuación, seleccionar Ejecutar en Databricks>Ejecutar archivo como flujo de trabajo.

Ejecutar archivo como flujo de trabajo desde el menú contextual

Pasos siguientes

Ahora que ha usado correctamente la extensión databricks para Visual Studio Code cargar un archivo de Python local y ejecutarlo de forma remota, también puede: