Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Esse artigo aborda a integração de sparklyr ao Databricks Connect para Databricks Runtime 13.0 e versões superiores. Essa integração não é fornecida pelo Databricks nem tem suporte direto do Databricks.
Em caso de dúvidas, acesse a Posit Community.
Para relatar problemas, vá para a seção Issues do repositório sparklyr em GitHub.
Para obter mais informações, confira Databricks Connect v2 na documentação do sparklyr.
O Databricks Connect permite que você conecte IDEs populares, como o RStudio Desktop, servidores de notebook e outros aplicativos personalizados para Azure Databricks clusters. Consulte Databricks Connect.
Observação
O Databricks Connect tem compatibilidade limitada com o Apache Spark MLlib, pois o Spark MLlib usa RDDs, enquanto o Databricks Connect dá suporte apenas à API dataframe. Para usar todas as funções do Spark MLlib do sparklyr, use os notebooks do Databricks ou a db_repl função do pacote brickster.
Este artigo demonstra como começar rapidamente com o Databricks Connect para R usando sparklyr e RStudio Desktop.
- Para o Databricks Connect para Python, consulte Databricks Connect para Python.
- Para o Databricks Connect para Scala, consulte Databricks Connect para Scala.
Tutorial
No tutorial a seguir, você cria um projeto no RStudio, instala e configura o Databricks Connect para Databricks Runtime 13.3 LTS e, acima, e executa um código simples na computação no workspace do Databricks do RStudio. Para obter informações complementares sobre este tutorial, consulte a seção “Databricks Connect” do Spark Connect e o Databricks Connect v2 no site sparklyr.
Este tutorial usa o RStudio Desktop e o Python 3.10. Se você ainda não os tiver instalado, instale o R e o RStudio Desktop e Python 3.10.
Requisitos
Para concluir este tutorial, você deve atender aos seguintes requisitos:
- O Azure Databricks workspace e o cluster de destino devem atender aos requisitos de configuração Compute para o Databricks Connect.
- Você deve ter a ID do cluster disponível. Para obter a ID do seu cluster, no seu workspace, clique em Computação na barra lateral e clique no nome do seu cluster. Na barra de endereços do navegador da Web, copie a cadeia de caracteres entre
clusterseconfigurationna URL.
Etapa 1: Crie um token de acesso pessoal
Observação
Atualmente, o Databricks Connect para autenticação R dá suporte apenas a tokens de acesso pessoal Azure Databricks.
Este tutorial usa a autenticação de token de acesso pessoal do Azure Databricks para autenticar com o seu workspace do Azure Databricks.
Se você já tiver um token de acesso pessoal Azure Databricks, vá para a Etapa 2. Se você não tiver certeza se já tem um token de acesso pessoal Azure Databricks, poderá seguir esta etapa sem afetar outros tokens de acesso pessoal Azure Databricks em sua conta de usuário.
Para criar um token de acesso pessoal, siga as etapas em Criar tokens de acesso pessoal para usuários do workspace.
Etapa 2: Crie o projeto
- Inicie o RStudio Desktop.
- No menu principal, clique em Arquivo > Novo Projeto.
- Selecione Novo Diretório.
- Selecione New Project.
- Para nome do Diretório e Criar projeto como subdiretório, insira o nome do novo diretório do projeto e onde criar esse novo diretório de projeto.
- Selecione Usar renv com este projeto. Se solicitado a instalar uma versão atualizada do pacote
renv, clique em Sim. - Clique em Criar Project.
Etapa 3: Adicionar o pacote Databricks Connect e outras dependências
No menu principal do RStudio Desktop, clique em Ferramentas > Instalar Pacotes.
Deixe Instalar de definido como Repositório (CRAN).
Em Pacotes, insira a seguinte lista de pacotes que são pré-requisitos para o pacote do Databricks Connect e este tutorial:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyrDeixe Instalar na Biblioteca definido para o seu ambiente virtual do R.
Verifique se Instalar dependências está selecionado.
Clique em Instalar.
Quando você for solicitado no modo de exibição do Console (Exibir > Mover Foco para o Console) para continuar com a instalação, insira
Y. Os pacotessparklyrepysparklyre suas dependências são instalados em seu ambiente virtual do R.No painel Console, use
reticulatepara instalar Python executando o comando a seguir. (O Databricks Connect para R requer quereticulatee Python sejam instalados primeiro.) No comando a seguir, substitua3.10pela versão principal e secundária da versão Python instalada no cluster Azure Databricks. Para encontrar essa versão maior e menor, consulte a seção "Ambiente do sistema" nas notas de lançamento da versão do Databricks Runtime do seu cluster em notas de versão do Databricks Runtime e compatibilidade.reticulate::install_python(version = "3.10")No painel Console, instale o pacote do Databricks Connect executando o comando a seguir. No comando a seguir, substitua
13.3pela versão do Databricks Runtime instalada em seu cluster Azure Databricks. Para localizar essa versão, na página de detalhes do cluster no workspace Azure Databricks, na guia Configuration, consulte a caixa Databricks Runtime Version.pysparklyr::install_databricks(version = "13.3")Se você não souber a versão do Databricks Runtime do seu cluster ou não quiser procurar, execute o seguinte comando e
pysparklyrconsultará o cluster para verificar a versão correta do Databricks Runtime a ser usada:pysparklyr::install_databricks(cluster_id = "<cluster-id>")Se você quiser que seu projeto se conecte posteriormente a um cluster diferente que tenha a mesma versão do Databricks Runtime que a que você acabou de especificar,
pysparklyrusará o mesmo ambiente Python. Se o novo cluster tiver uma versão diferente do Databricks Runtime, você deverá executar o comandopysparklyr::install_databricksnovamente com a nova ID de cluster ou versão do Databricks Runtime.
Etapa 4: Defina variáveis de ambiente para a URL do workspace, o token de acesso e a ID do cluster
O Databricks não recomenda que você inclua diretamente valores confidenciais ou sujeitos a alterações, como a URL do workspace do Azure Databricks, o token de acesso pessoal do Azure Databricks, ou o ID do cluster do Azure Databricks em seus scripts R. Em vez disso, armazene esses valores separadamente, por exemplo, em variáveis de ambiente locais. Este tutorial usa o suporte interno do RStudio Desktop para armazenar variáveis de ambiente em um .Renviron arquivo.
Crie um arquivo
.Renvironpara armazenar as variáveis de ambiente, se esse arquivo ainda não existir e, em seguida, abra este arquivo para edição: no Console do RStudio Desktop, execute o seguinte comando:usethis::edit_r_environ()No arquivo
.Renvironexibido (Exibir > Mover Foco para a Origem), insira o conteúdo a seguir. Nesse conteúdo, substitua os marcadores de posição a seguir:- Substitua
<workspace-url>por sua URL por espaço de trabalho, por exemplo,https://adb-1234567890123456.7.azuredatabricks.net. - Substitua
<personal-access-token>pelo token de acesso pessoal Azure Databricks da Etapa 1. - Substitua
<cluster-id>pela identificação do cluster especificada nos requisitos deste tutorial.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>- Substitua
Salve o arquivo
.Renviron.Carregue as variáveis de ambiente em R: no menu principal, clique em Sessão > Reiniciar R.
Etapa 5: Adicionar código
No menu principal do RStudio Desktop, clique em Arquivo > Novo Arquivo > R Script.
Insira o seguinte código no arquivo e salve o arquivo (Arquivo > Salvar) como
demo.R:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Etapa 6: Executar o código
Na barra de ferramentas do arquivo
demo.Rdo RStudio Desktop, clique em Origem.
No Console, as cinco primeiras linhas da tabela
tripssão exibidas.No modo de exibição Conexões (Exibição > Mostrar Conexões), você pode explorar catálogos, esquemas, tabelas e exibições disponíveis.
Etapa 7: Depurar o código
- No arquivo
demo.R, clique na margem ao lado deprint(trips, n = 5)para definir um ponto de interrupção. - Na barra de ferramentas do arquivo
demo.R, clique em Origem. - Quando o código pausa a execução no ponto de interrupção, você pode inspecionar a variável no modo de exibição Ambiente (Exibir > Mostrar Ambiente).
- No menu principal, clique em Depurar > Continuar.
- No Console, as cinco primeiras linhas da tabela
tripssão exibidas.