Compartilhar via


Tutorial: Executar Python em um cluster e como um trabalho usando a extensão do Databricks para Visual Studio Code

Este tutorial explica como configurar a extensão do Databricks para Visual Studio Code e, em seguida, executar Python em um cluster Azure Databricks e como um trabalho Azure Databricks em seu workspace remoto. Consulte a extensão Databricks para Visual Studio Code.

Requisitos

Este tutorial exige que:

Etapa 1: Criar um novo projeto do Databricks

Nesta etapa, você criará um novo projeto do Databricks e configurará a conexão com seu workspace de Azure Databricks remoto.

  1. Inicie Visual Studio Code, clique em File > Abrir Pasta e abra uma pasta vazia no computador de desenvolvimento local.
  2. Na barra lateral, clique no ícone do logotipo do Databricks. Isso abrirá a extensão do Databricks.
  3. No modo de exibição de Configuração, clique em Criar configuração.
  4. A Paleta de Comandos para configurar o workspace do Databricks é aberta. Para Host do Databricks, insira ou selecione sua URL de cada workspace, por exemplo https://adb-1234567890123456.7.azuredatabricks.net.
  5. Selecione um perfil de autenticação para o projeto. Consulte Configure a autorização para a extensão do Databricks para o Visual Studio Code.

Etapa 2: Adicionar informações do cluster à extensão do Databricks e iniciar o cluster

  1. Com a exibição Configuração já aberta, clique em Selecionar um cluster ou no ícone de engrenagem (Configurar cluster).

    Configurar cluster

  2. Na Paleta de Comandos, selecione o nome do cluster que você criou anteriormente.

  3. Clique no ícone de reprodução (Iniciar cluster) se ele ainda não tiver sido iniciado.

Etapa 3: Criar e executar Python código

  1. Crie um arquivo de código de Python local: na barra lateral, clique no ícone pasta (Explorer).

  2. No menu principal, clique em File > Novo Arquivo e escolha um arquivo Python. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o código a seguir ao arquivo e salve-o. Esse código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Carregar e Executar Arquivo. A saída aparece na exibição Console de Depuração.

    Carregar e executar arquivo do ícone

    Como alternativa, na exibição do Explorer, clique com o botão direito do mouse no arquivo demo.py e, em seguida, clique em Executar no Databricks>Carregar e Executar Arquivo.

    Carregar e executar arquivo do menu de contexto

Etapa 4: Executar o código como um trabalho

Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece em uma guia de editor separada próxima ao editor de arquivos demo.py.

Executar arquivo como fluxo de trabalho do ícone

Como alternativa, clique com o botão direito do mouse no arquivo demo.py no painel Gerenciador e selecione Executar no Databricks>Executar Arquivo como Fluxo de Trabalho.

Executar arquivo como fluxo de trabalho no menu de contexto

Próximas etapas

Agora que você usou com êxito a extensão do Databricks para Visual Studio Code carregar um arquivo de Python local e executá-lo remotamente, você também pode: