Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este tutorial explica como configurar a extensão do Databricks para Visual Studio Code e, em seguida, executar Python em um cluster Azure Databricks e como um trabalho Azure Databricks em seu workspace remoto. Consulte a extensão Databricks para Visual Studio Code.
Requisitos
Este tutorial exige que:
- Você instalou a extensão do Databricks para Visual Studio Code. Consulte Instalação da extensão do Databricks para o Visual Studio Code.
- Você tem um cluster de Azure Databricks remoto a ser usado. Anote o nome do cluster. Para exibir seus clusters disponíveis, na barra lateral do workspace Azure Databricks, clique em Compute. Consulte Computar.
Etapa 1: Criar um novo projeto do Databricks
Nesta etapa, você criará um novo projeto do Databricks e configurará a conexão com seu workspace de Azure Databricks remoto.
- Inicie Visual Studio Code, clique em File > Abrir Pasta e abra uma pasta vazia no computador de desenvolvimento local.
- Na barra lateral, clique no ícone do logotipo do Databricks. Isso abrirá a extensão do Databricks.
- No modo de exibição de Configuração, clique em Criar configuração.
- A Paleta de Comandos para configurar o workspace do Databricks é aberta. Para Host do Databricks, insira ou selecione sua URL de cada workspace, por exemplo
https://adb-1234567890123456.7.azuredatabricks.net. - Selecione um perfil de autenticação para o projeto. Consulte Configure a autorização para a extensão do Databricks para o Visual Studio Code.
Etapa 2: Adicionar informações do cluster à extensão do Databricks e iniciar o cluster
Com a exibição Configuração já aberta, clique em Selecionar um cluster ou no ícone de engrenagem (Configurar cluster).
Na Paleta de Comandos, selecione o nome do cluster que você criou anteriormente.
Clique no ícone de reprodução (Iniciar cluster) se ele ainda não tiver sido iniciado.
Etapa 3: Criar e executar Python código
Crie um arquivo de código de Python local: na barra lateral, clique no ícone pasta (Explorer).
No menu principal, clique em File > Novo Arquivo e escolha um arquivo Python. Nomeie o arquivo demo.py e salve-o na raiz do projeto.
Adicione o código a seguir ao arquivo e salve-o. Esse código cria e exibe o conteúdo de um DataFrame PySpark básico:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show()# +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+Clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Carregar e Executar Arquivo. A saída aparece na exibição Console de Depuração.
Como alternativa, na exibição do Explorer, clique com o botão direito do mouse no arquivo
demo.pye, em seguida, clique em Executar no Databricks>Carregar e Executar Arquivo.
Etapa 4: Executar o código como um trabalho
Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece em uma guia de editor separada próxima ao editor de arquivos demo.py.
Como alternativa, clique com o botão direito do mouse no arquivo demo.py no painel Gerenciador e selecione Executar no Databricks>Executar Arquivo como Fluxo de Trabalho.
Próximas etapas
Agora que você usou com êxito a extensão do Databricks para Visual Studio Code carregar um arquivo de Python local e executá-lo remotamente, você também pode:
- Explore os recursos e variáveis dos Pacotes de Automação Declarativa usando a interface do usuário da extensão. Consulte as funcionalidades da extensão Pacotes de Automação Declarativa.
- Execute ou depure Python código com o Databricks Connect. Consulte o código Debug usando o Databricks Connect para a extensão do Databricks para Visual Studio Code.
- Execute um arquivo ou um bloco de anotações como um trabalho de Azure Databricks. Consulte como executar um arquivo em um cluster ou como um arquivo ou notebook como trabalho no Azure Databricks, usando a extensão Databricks para Visual Studio Code.
- Execute testes com o
pytest. Consulte Executar testes de Python usando a extensão do Databricks para Visual Studio Code.