Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Este artigo se aplica ao Databricks Connect para Databricks Runtime 13.3 LTS e superior.
O Databricks Connect permite que você conecte IDEs populares, como PyCharm, servidores de notebook e outros aplicativos personalizados para Azure Databricks computação. Consulte Databricks Connect.
Este artigo demonstra como começar rapidamente com o Databricks Connect para Python usando PyCharm. Você criará um projeto no PyCharm, instalará o Databricks Connect para Databricks Runtime 13.3 LTS e versões posteriores e executará código simples na computação clássica no workspace do Databricks a partir do PyCharm.
Requisitos
Para concluir este tutorial, você deve atender aos seguintes requisitos:
- Seu workspace, ambiente local e computação atendem aos requisitos do Databricks Connect para Python. Consulte os requisitos de uso do Databricks Connect.
- Você tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se você usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.
- Se você estiver usando a computação clássica, precisará da ID do cluster. Para obter a ID do seu cluster, no seu workspace, clique em Computação na barra lateral e clique no nome do seu cluster. Na barra de endereços do navegador da Web, copie a cadeia de caracteres entre
clusterseconfigurationna URL.
Etapa 1: Configurar a autenticação Azure Databricks
Este tutorial usa a autenticação OAuth de usuário para máquina (U2M) do Azure Databricks e um perfil de configuração do Azure Databricks para autenticar no workspace do Azure Databricks. Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.
A configuração da autenticação OAuth U2M requer a CLI do Databricks. Para obter informações sobre a instalação da CLI do Databricks, confira Instalar ou atualizar a CLI do Databricks.
Inicie a autenticação OAuth U2M da seguinte forma:
Use o CLI do Databricks para iniciar o gerenciamento local de tokens OAuth executando o seguinte comando para cada workspace de destino.
No comando a seguir, substitua
<workspace-url>pela URL Azure Databricks per-workspace, por exemplo,https://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Dica
Para usar a computação sem servidor com o Databricks Connect, confira Configurar uma conexão com a computação sem servidor.
A CLI do Databricks solicita que você salve as informações inseridas como um perfil de Azure Databricks configuração. Pressione
Enterpara aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações inseridas. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários workspaces.Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando
databricks auth profiles. Para exibir as configurações existentes de um perfil específico, execute o comandodatabricks auth env --profile <profile-name>.No navegador de internet, conclua as instruções na tela para fazer login no workspace do Azure Databricks.
Na lista de clusters disponíveis que aparece em seu terminal ou prompt de comando, use as teclas de seta para cima e seta para baixo para selecionar o cluster do Azure Databricks de destino no seu workspace e pressione
Enter. Você também pode digitar qualquer parte do nome de exibição do cluster para filtrar a lista de clusters disponíveis.Para exibir o valor atual do token OAuth de um perfil e o carimbo de data/hora de expiração do token, execute um dos seguintes comandos:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Se você tiver vários perfis com o mesmo valor
--host, talvez seja necessário especificar as opções--hoste-pem conjunto para ajudar a CLI do Databricks a encontrar as informações de token OAuth correspondentes corretas.
Etapa 2: Crie o projeto
- Inicie o PyCharm.
- No menu principal, clique em Arquivo > Novo Projeto.
- Na caixa de diálogo New Project, clique em Pure Python.
- Para Location, clique no ícone de pasta e conclua as instruções na tela para especificar o caminho para o novo projeto de Python.
- Deixe Criar um script de boas-vindas main.py selecionado.
- Para o tipo Interpreter, clique em Project venv.
- Expanda versão do Python e use o ícone de pasta ou a lista suspensa para especificar o caminho para o interpretador do Python conforme os requisitos anteriores.
- Clique em Criar.
Etapa 3: adicione o pacote do Databricks Connect
- No menu principal do PyCharm, clique em View > Windows > Python Packages.
- Na caixa de pesquisa, insira
databricks-connect. - Na lista do repositório PyPI, clique em databricks-connect.
- Na lista suspensa mais recente do painel de resultados, selecione a versão que corresponde à versão do Databricks Runtime do cluster. Por exemplo, se o cluster tiver o Databricks Runtime 14.3 instalado, selecione 14.3.1.
- Clique em Instalar pacote.
- Após a instalação do pacote, você pode fechar a janela Python Pacotes.
Etapa 4: adicionar o código
Na janela da ferramenta Project, clique com o botão direito do mouse na pasta raiz do project e clique em New > Python File.
Insira
main.pye clique duas vezes no arquivo Python.Insira o seguinte código no arquivo e, em seguida, salve o arquivo, dependendo do nome do seu perfil de configuração.
Se o perfil de configuração da Etapa 1 for chamado
DEFAULT, insira o seguinte código no arquivo e, em seguida, salve o arquivo:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Se o perfil de configuração da Etapa 1 não for chamado
DEFAULT, insira o seguinte código no arquivo. Substitua o espaço reservado<profile-name>pelo nome do perfil de configuração da etapa 1 e salve o arquivo:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Etapa 5: Executar o código
- Inicie o cluster de destino no workspace remoto do Azure Databricks.
- Depois que o cluster for iniciado, no menu principal, clique em Executar > Executar 'main'.
- Na janela de ferramentas Run (View > Tool Windows > Run), no painel principal da aba Run, as cinco primeiras linhas do
samples.nyctaxi.tripsaparecem.
Etapa 6: Depurar o código
- Com o cluster ainda em execução, no código anterior, clique na medianiz ao lado de
df.show(5)para definir um ponto de interrupção. - No menu principal, clique em Executar > Debug 'main'.
- Na janela de ferramentas
Debug (View ), na aba doTool Windows Debug Debugger , no painel deVariáveis , expanda os nós de variáveisdf espark para inspecionar informações sobre as variáveis docódigo e. - Na barra lateral da janela de ferramenta de depuração , clique no ícone de seta verde (Retomar Programa).
- No painel Console da aba Depurador, as cinco primeiras linhas de
samples.nyctaxi.tripsaparecem.