Compartilhar via


Migrar do Databricks Connect para Python

Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite que você conecte IDEs populares, servidores de notebook e aplicativos personalizados para Azure Databricks clusters. Consulte Databricks Connect.

Antes de começar a utilizar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.

Para obter a versão para Scala deste artigo, consulte Migrar para o Databricks Connect para Scala.

Migrar seu projeto de Python

Para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior:

  1. Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao cluster Azure Databricks, se ele ainda não estiver instalado localmente.

  2. Atualize seu ambiente virtual Python para usar a versão correta do Python e corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor de ambiente virtual.

  3. Com o ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e anteriores:

    pip3 uninstall databricks-connect
    
  5. Com seu ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    O Databricks recomenda que você acrescente a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

  6. Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte Configuração de computação para o Databricks Connect.

  7. Migre suas APIs RDD para usar APIs de DataFrame e migre seu SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica às operações de SQL e do DataFrame. As configurações do Hadoop definidas no sparkContext precisam ser feitas na configuração do cluster ou por meio de um notebook. Isso porque as configurações definidas em sparkContext não estão vinculadas às sessões de usuário, mas se aplicam a todo o cluster.