Setembro de 2020

Esses recursos e melhorias na plataforma Azure Databricks foram lançados em setembro de 2020.

Observação

Os lançamentos são realizados em etapas. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.

Databricks Runtime 7.3, 7.3 ML e 7.3 Genomics agora estão no GA

24 de setembro de 2020

O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics já estão disponíveis para o público geral. Eles trazem muitos recursos e aprimoramentos, incluindo:

  • Otimizações de desempenho do Delta Lake reduzem significativamente a sobrecarga
  • Métricas de clonagem
  • Melhorias do Delta Lake MERGE INTO
  • Especificar a posição inicial para o Structured Streaming do Delta Lake
  • Aprimoramentos do Carregador Automático
  • Execução de consulta adaptável
  • Controle de comprimento de coluna do conector do Azure Synapse Analytics
  • Comportamento aprimorado de dbutils.credentials.showRoles
  • Conversão simplificada de dataframe do pandas para Spark
  • Novo maxResultSize na chamada toPandas()
  • Capacidade de depuração de UDFs do pandas e PySpark
  • (Apenas ML) Ativação do Conda em trabalhos
  • Somente Genomics: Suporte para leitura de arquivos BGEN com genótipos descomprimidos ou comprimidos com zstd
  • Atualizações da biblioteca

Clusters de nó único (Versão Prévia Pública)

23 a 29 de setembro de 2020: versão 3.29

Um cluster de nó único é um cluster composto por um driver do Spark e nenhum trabalhador do Spark. Por outro lado, os clusters no modo Standard exigem pelo menos um trabalhador do Spark para executar os trabalhos do Spark. Clusters em modo de um único nó são úteis nas seguintes situações:

  • Execução de cargas de trabalho de aprendizado de máquina em um único nó que precisam do Spark para carregar e salvar dados
  • Análise Exploratória de Dados (EDA) leve

Para obter detalhes, consulte Single-node compute.

Limitação da taxa da API REST do DBFS

23 a 29 de setembro de 2020: versão 3.29

Para garantir a alta qualidade do serviço sob carga pesada, o Azure Databricks agora impõe limites de taxa de API para todas as chamadas à API do DBFS. Os limites são definidos por workspace para garantir o uso justo e a alta disponibilidade. As novas tentativas automáticas estão disponíveis usando a CLI do Databricks versão 0.12.0 e superior. Recomendamos que todos os clientes alternem para a versão do cliente mais recente do Databricks.

Novos ícones da barra lateral

23 a 29 de setembro de 2020

Atualizamos a barra lateral na interface do usuário do workspace do Azure Databricks. Não é grande coisa, mas achamos que os novos ícones ficaram muito bons.

barra lateral

Aumento do limite para trabalhos em execução

23 a 29 de setembro de 2020: versão 3.29

O limite de execução de trabalhos simultâneos foi aumentado de 150 para 1000 por espaço de trabalho. As execuções com mais de 150 não serão mais enfileiradas no estado pendente. Em vez de uma fila para solicitações de execução acima das execuções simultâneas, uma resposta 429 Too Many Requests retorna quando você solicita uma execução que não pode ser iniciada imediatamente. Esse aumento de limite foi implementado gradualmente e agora está disponível em todos os workspaces em todas as regiões.

Listas de controle de acesso (ACLs) de artefato no MLflow

23 a 29 de setembro de 2020: versão 3.29

As permissões dos experimentos no MLflow agora são aplicadas aos artefatos no MLflow Tracking, permitindo que você controle facilmente o acesso a seus modelos, conjuntos de dados e outros arquivos. Por padrão, quando você cria um novo experimento, seus artefatos de execução são armazenados em um local gerenciado pelo MLflow. Os quatro níveis de permissões do Experimento do MLflow (NO PERMISSIONS, CAN READ, CAN EDIT e CAN MANAGE) se aplicam automaticamente a artefatos de execução armazenados em locais gerenciados pelo MLflow, como se segue:

  • As permissões "CAN EDIT" ou "CAN MANAGE" são necessárias para registrar artefatos de execução em um experimento.
  • As permissões CAN READ são necessárias para listar e baixar os artefatos de execução de um experimento.

Para obter mais informações, consulte ACLs de experimento do MLflow.

Melhorias na usabilidade do MLflow

23 a 29 de setembro de 2020: versão 3.29

Essa versão inclui as seguintes melhorias de uso do MLflow:

  • As páginas Experimento e Modelos Registrados do MLflow agora têm dicas para ajudar novos usuários a começar.
  • Agora, a tabela de versão do modelo mostra o texto de descrição de uma versão do modelo. Uma nova coluna mostra os primeiros 32 caracteres ou a primeira linha (o que for menor) da descrição.

Novo conector do Power BI para Azure Databricks (Versão Prévia Pública)

22 de setembro de 2020

O Power BI Desktop versão 2.85.681.0 inclui um novo conector do Power BI para Azure Databricks que torna a integração entre o Azure Databricks e o Power BI muito mais direta e confiável. O novo conector vem com as seguintes melhorias:

  • Configuração de conexão simples: o novo conector do Power BI para Azure Databricks é integrado ao Power BI e pode ser configurado com alguns cliques, usando uma caixa de diálogo simples.
  • Autenticação baseada em credenciais do Microsoft Entra ID: a configuração de tokens PAT por administradores não é mais necessária.
  • Importações mais rápidas e chamadas de metadados otimizadas, graças ao novo driver ODBC do Azure Databricks, que vem com melhorias significativas de desempenho.
  • O acesso a dados do Azure Databricks por meio de Power BI respeita o controle de acesso à tabela do Azure Databricks e as permissões de conta de armazenamento do Azure associadas à sua identidade do Microsoft Entra ID.

Para obter mais informações, consulte o Power BI com o Azure Databricks.

Usar chaves gerenciadas pelo cliente para a raiz DBFS (Versão prévia pública)

15 de setembro de 2020

Agora, você pode usar sua própria chave de criptografia no Azure Key Vault para criptografar a conta de armazenamento do DBFS. Consulte Chaves gerenciadas pelo cliente para DBFS raiz.

Novos drivers JDBC e ODBC trazem BI mais rápido e com menor latência.

15 de setembro de 2020

Lançamos novas versões dos drivers JDBC e ODBC do Databricks (download) com as seguintes melhorias:

  • Desempenho: conexão reduzida e latência de consulta curta, velocidade de transferência de resultados aprimorada com base na serialização do Apache Arrow e melhor desempenho de recuperação de metadados.
  • Experiência do usuário: autenticação usando tokens de acesso OAuth2 do Microsoft Entra ID, mensagens de erro aprimoradas e nova tentativa automática ao se conectar a um cluster de desligamento, manipulação mais robusta de novas tentativa em erros intermitentes de rede.
  • Suporte para conexões usando proxy HTTP.

Para saber mais sobre como se conectar a ferramentas de BI usando JDBC e ODBC, confira Drivers de ODBC e de JDBC do Databricks.

Serviço de Modelo de MLflow (Versão prévia pública)

9 a 15 de setembro de 2020: versão 3.28

O Serviço de Modelo do MLflow está disponível em Visualização Pública. O Serviço de Modelo do MLflow permite implantar um modelo do MLflow registrado no Registro de Modelo como um ponto de extremidade da API REST hospedado e gerenciado pelo Azure Databricks. Quando você habilita o serviço de modelo para um modelo registrado, Azure Databricks cria um cluster e implanta todas as versões não arquivadas desse modelo.

Você pode consultar todas as versões de modelo por solicitações da API REST com autenticação padrão do Azure Databricks. Os direitos de acesso de modelo são herdados do Registro de Modelo – qualquer pessoa com direitos de leitura para um modelo registrado pode consultar qualquer uma das versões de modelo implantadas. Enquanto esse serviço está em versão prévia, recomendamos o uso dele para aplicativos não críticos de baixa taxa de transferência.

Para saber mais, confira Serviço de Modelo do MLflow Herdado no Azure Databricks.

Aprimoramentos de interface do usuário dos clusters

9 a 15 de setembro de 2020: versão 3.28

Agora, a página Clusters tem guias separadas para Clusters para Todos os Fins e Clusters de Trabalho. A lista em cada aba agora está paginada. Além disso, corrigimos o atraso que às vezes ocorria entre a criação de um cluster e a capacidade de vê-lo na interface do usuário.

Controles de visibilidade para trabalhos, clusters, notebooks e outros objetos do espaço de trabalho

9 a 15 de setembro de 2020: versão 3.28

Por padrão, qualquer usuário pode ver todos os trabalhos, clusters, notebooks e pastas em seu workspace na interface do usuário do Azure Databricks e pode listá-los usando a API do Databricks, mesmo quando o controle de acesso estiver habilitado para esses objetos e um usuário não tiver permissões nesses objetos.

Agora, qualquer administrador do Azure Databricks pode habilitar controles de visibilidade para notebooks e pastas (objetos de workspace), clusters e trabalhos para garantir que os usuários possam exibir somente os objetos para os quais receberam acesso por meio do workspace, cluster ou controle de acesso de trabalhos.

Confira As listas de controles de acesso não podem mais ser desabilitadas.

Capacidade de criar tokens que não são mais permitidos por padrão

9 a 15 de setembro de 2020: versão 3.28

Para workspaces criados após o lançamento da plataforma Azure Databricks versão 3.28, os usuários não terão mais a capacidade de gerar tokens de acesso pessoal por padrão. Os administradores precisam conceder explicitamente essas permissões, seja para todo o grupo de users, seja para cada usuário ou grupo. Os workspaces criados antes de 3.28 manterão as permissões que já estavam em vigor.

Consulte Monitorar e revogar tokens de acesso pessoal.

O Registro de Modelos MLflow dá suporte ao compartilhamento de modelos entre workspaces

9 de setembro de 2020

Agora, o Azure Databricks dá suporte ao acesso ao registro de modelos de vários workspaces. Agora, você pode registrar modelos, acompanhar as execuções de modelo e carregar modelos entre espaços de trabalho. Agora, várias equipes podem compartilhar o acesso a modelos, e as organizações podem usar vários workspaces para lidar com os diferentes estágios de desenvolvimento. Para obter detalhes, confira Compartilhe modelos entre espaços de trabalho.

Essa funcionalidade exige o cliente Python do MLflow versão 1.11.0 ou superior.

Databricks Runtime 7.3 (Beta)

3 de setembro de 2020

O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics já estão disponíveis como versões Beta.

Alteração de nome de tipo de carga de trabalho do Azure Databricks

1 de setembro de 2020

Os nomes dos tipos de carga de trabalho usados pelos clusters foram alterados:

  • Engenharia de Dados –> Computação para Execução de Tarefas
  • Engenharia de Dados Light –> Computação de Tarefas Light
  • Análise de Dados –> Computação para todos os fins

Esses novos nomes aparecerão em faturas e no portal do EA em combinação com seu plano de preços (por exemplo, "Premium - Computação de Trabalhos - DBU"). Para obter detalhes, confira Medidores do Azure Databricks.

A interface do usuário também foi alterada na versão 3.27 da plataforma (destinada à versão em etapas entre 25 de agosto e 3 de setembro):

Na página Clusters, os títulos da lista foram alterados:

  • Clusters Interativos –> Clusters para Todos os Fins
  • Clusters Automatizados –> Clusters de Trabalho

Quando você configura um cluster para um trabalho, as opções Tipo de Cluster mudam:

  • Novo Cluster Automatizado – > Novo Cluster de Trabalho
  • Cluster Interativo Existente – > Cluster Multipropósito Existente