Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite que você conecte IDEs populares, servidores de notebook e aplicativos personalizados para Azure Databricks clusters. Consulte Databricks Connect.
Antes de começar a utilizar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.
Para obter a versão para Scala deste artigo, consulte Migrar para o Databricks Connect para Scala.
Migrar seu projeto de Python
Para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao cluster Azure Databricks, se ele ainda não estiver instalado localmente.
Atualize seu ambiente virtual Python para usar a versão correta do Python e corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor de ambiente virtual.
Com o ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pysparkCom seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e anteriores:
pip3 uninstall databricks-connectCom seu ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Observação
O Databricks recomenda que você acrescente a notação "ponto-asterisco" para especificar
databricks-connect==X.Y.*em vez dedatabricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.Atualize seu código Python para inicializar a variável
spark(que representa uma instanciação da classeDatabricksSession, semelhante aSparkSessionno PySpark). Consulte Configuração de computação para o Databricks Connect.Migre suas APIs RDD para usar APIs de DataFrame e migre seu
SparkContextpara usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica às operações de SQL e do DataFrame. As configurações do Hadoop definidas no sparkContext precisam ser feitas na configuração do cluster ou por meio de um notebook. Isso porque as configurações definidas em sparkContext não estão vinculadas às sessões de usuário, mas se aplicam a todo o cluster.