Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página arquivada lista as atualizações de manutenção emitidas para versões do Databricks Runtime que não são mais suportadas. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster.
Important
Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo chegaram ao fim do suporte. Consulte versões e compatibilidade das notas de lançamento do Databricks Runtime.
Note
Este artigo contém referências ao termo whitelist, um termo que o Azure Databricks não usa. Quando o termo for removido do software, iremos removê-lo deste artigo.
Versões do Databricks Runtime
Atualizações de manutenção por versão:
- Tempo de execução do Databricks 17.2
- Tempo de execução do Databricks 17.1
- Tempo de execução do Databricks 17.0
- Tempo de execução do Databricks 16.3
- Tempo de execução do Databricks 16.2
- Tempo de execução do Databricks 16.1
- Tempo de execução do Databricks 16.0
- Tempo de execução do Databricks 15.3
- Tempo de execução do Databricks 15.2
- Tempo de execução do Databricks 15.1
- Tempo de execução do Databricks 15.0
- Tempo de execução do Databricks 14.2
- Tempo de execução do Databricks 14.1
- Tempo de execução do Databricks 14.0
- Tempo de execução do Databricks 13.1
- Tempo de execução do Databricks 12.2 LTS
- Tempo de execução do Databricks 11.3 LTS
- Tempo de execução do Databricks 10.4 LTS
- Tempo de execução do Databricks 13.0
- Tempo de execução do Databricks 12.1
- Tempo de execução do Databricks 12.0
- Tempo de execução do Databricks 11.2
- Tempo de execução do Databricks 11.1
- Tempo de execução do Databricks 11.0
- Tempo de execução do Databricks 10.5
Para obter as atualizações de manutenção em versões suportadas do Databricks Runtime, consulte Atualizações de manutenção do Databricks Runtime.
Tempo de execução do Databricks 17.2
Ver Databricks Runtime 17.2 (EoS).
- 10 de março de 2026
- [SPARK-55701]ES-1694761[SS] Corrigir a condição da corrida no CompactibleFileStreamLog.allFiles
- [SPARK-55493] [SS] Não realizar mkdirs no diretório de estado de checkpoints em streaming no StateDataSource
- Atualizações de segurança do sistema operacional.
26 de fevereiro de 2026
- Atualizações de segurança do sistema operacional.
19 de fevereiro de 2026
- Ao inferir o esquema dos ficheiros Excel, as células de cadeia são agora inferidas como Spark
StringType. Isto respeita o conjunto de tipos de células no Excel. Anteriormente, cadeias com valores numéricos eram convertidas automaticamente para tipos mais específicos comoLongouDecimal. - [SPARK-55243][CONNECT] Permitir a definição de cabeçalhos binários através do sufixo -bin no cliente Scala Connect
- [SCALA][SPARK-54887]](https://issues.apache.org/jira/browse/SPARK-54887)[CONNECT] Define sempre um estado sql no cliente Spark Connect
- [SPARK-54887][CONECTAR] Adicionar sqlstate opcional aos sparkthrowables
- [SPARK-55282][PYTHON][CONECTAR] Evita usar worker_util no lado do condutor
- Atualizações de segurança do sistema operacional.
- Ao inferir o esquema dos ficheiros Excel, as células de cadeia são agora inferidas como Spark
- 27 de janeiro de 2026
- [SPARK-55015][SS][SQL] Corrigir o cálculo do decodeRemainingKey numFields no PrefixKeyScanStateEncoder
- [SPARK-54768][SS]Python Stream Data Source deve classificar erro se os dados retornados não corresponderem ao esquema configurado
- Atualizações de segurança do sistema operacional.
- 9 de janeiro de 2026
- [SPARK-54711][PYTHON] Adicionar um timeout para a ligação de trabalhador criada por daemon
- Atualizações de segurança do sistema operacional.
- 9 de dezembro de 2025
- Tabelas Delta particionadas terão colunas de partição materializadas em ficheiros de parquet de dados daqui para a frente. Isto permite uma melhor sinergia com a forma como as tabelas Iceberg e UniForm são tratadas, e aumenta a compatibilidade com leitores externos não-Delta.
-
[SPARK-54427][SQL] Permitir que o ColumnarRow chame
copycom tipos variantes - [SPARK-54180][SQL] Sobrepor o toString do BinaryFileFormat
- [SPARK-50906][SQL] Corrigir a verificação de nulidade do Avro para campos de struct reordenados
- Atualizações de segurança do sistema operacional.
- 18 de novembro de 2025
-
[SPARK-54078][SS] Novo teste para
StateStoreSuite SPARK-40492: maintenance before unloade remover infra do teste antigo - [SPARK-54047][PYTHON] Usar um erro diferencial quando o tempo limite para encerrar por inatividade ocorre
- [SPARK-54099][SQL] O parser variante XML deve voltar para string em caso de erros de análise decimal.
-
[SPARK-54015][PYTHON] Relaxar o requisito do Py4J para
py4j>=0.10.9.7,<0.10.9.10 - [SPARK-52515]Approx_top_k utilizando o Apache DataSketches
- Atualizações de segurança do sistema operacional.
-
[SPARK-54078][SS] Novo teste para
- 4 de novembro de 2025
- [SPARK-53973][Avro] Classificar erros para falha de fundição booleana AvroOptions
- [SPARK-53972][SS] Corrigir consulta de streaming recenteRegressão de progresso no pyspark clássico
- [SPARK-53908][CONNECT] Corrigir observações no Spark Connect com cache de plano
- Atualizações de segurança do sistema operacional.
- Outubro 21, 2025
- Atualizações de segurança do sistema operacional.
- Outubro 8, 2025
- [SPARK-53555] Correção: O SparkML-connect não consegue carregar o modelo guardado pelo SparkML (modo legado)
- [SPARK-53598][SQL] Verifique a existência de numParts antes de ler a propriedade de tabela grande
- [SPARK-53625][SS] Propagar colunas de metadados através de projeções para resolver a incompatibilidade ApplyCharTypePadding
- [SPARK-53568][CONNECT][PYTHON] Corrija vários pequenos bugs na lógica de tratamento de erros do cliente Python do Spark Connect
- [SPARK-53574] Corrigir o AnalysisContext a ser eliminado durante a resolução do plano aninhado
- [SPARK-53623][SQL] melhorar a leitura das propriedades de uma tabela grande ...
-
[SPARK-53729][PYTHON][CONNECT] Corrigir serialização de
pyspark.sql.connect.window.WindowSpec - [SPARK-53549][SS] Sempre feche o alocador de seta quando o processo de solicitação de estado da lista for concluído
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2025
- Corrigido um problema que podia fazer com que o Auto Loader travasse indefinidamente.
- [SPARK-53362] [ML] [CONNECT] Corrigir erro do carregador local IDFModel
- [SPARK-53382][SQL] Corrigir bug em rCTE com recursão mal configurada
- Correção de teste instável retroportada para [SPARK-53345]
- [SPARK-49872][CORE] Remover a limitação de comprimento de cadeia JSON do Jackson
- [SPARK-53423] [SQL] Mova todas as tags relacionadas ao resolvedor de passagem única para ResolverTag
- [SPARK-53431][PYTHON] Corrija Python UDTF com argumentos de tabela nomeados na API DataFrame
-
[SPARK-53336] [ML] [CONNECT] Redefinir
MLCache.totalMLCacheSizeBytesquandoMLCache.clear()é chamado - [SPARK-53394][CORE] UninterruptibleLock.isInterruptible deve evitar a duplicação de interrupções
- [SPARK-53470][SQL] As expressões ExtractValue devem sempre fazer verificação de tipo
- Seleção específica de [SPARK-53389] Melhorias para a API Pandas no Spark conforme ANSI
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 17.1
Ver Databricks Runtime 17.1 (EoS).
- 27 de janeiro de 2026
- [SPARK-55015][SS][SQL] Corrigir o cálculo do decodeRemainingKey numFields no PrefixKeyScanStateEncoder
- [SPARK-54768][SS]Python Stream Data Source deve classificar erro se os dados retornados não corresponderem ao esquema configurado
- Atualizações de segurança do sistema operacional.
- 9 de janeiro de 2026
- [SPARK-54711][PYTHON] Adicionar um timeout para a ligação de trabalhador criada por daemon
- Atualizações de segurança do sistema operacional.
- 9 de dezembro de 2025
- Tabelas Delta particionadas terão colunas de partição materializadas em ficheiros de parquet de dados daqui para a frente. Isto permite uma melhor sinergia com a forma como as tabelas Iceberg e UniForm são tratadas, e aumenta a compatibilidade com leitores externos não-Delta.
- [SPARK-54180][SQL] Sobrepor o toString do BinaryFileFormat
- [SPARK-50906][SQL] Corrigir a verificação de nulidade do Avro para campos de struct reordenados
-
[SPARK-54427][SQL] Permitir que o ColumnarRow chame
copycom tipos variantes - Atualizações de segurança do sistema operacional.
- 18 de novembro de 2025
-
[SPARK-54015][PYTHON] Relaxar o requisito do Py4J para
py4j>=0.10.9.7,<0.10.9.10 - [SPARK-52515]Approx_top_k utilizando o Apache DataSketches
- [SPARK-54047][PYTHON] Usar um erro diferencial quando o tempo limite para encerrar por inatividade ocorre
-
[SPARK-54078][SS] Novo teste para
StateStoreSuite SPARK-40492: maintenance before unloade remover infra do teste antigo - [SPARK-54099][SQL] O parser variante XML deve voltar para string em caso de erros de análise decimal.
- Atualizações de segurança do sistema operacional.
-
[SPARK-54015][PYTHON] Relaxar o requisito do Py4J para
- 4 de novembro de 2025
- [SPARK-53972][SS] Corrigir consulta de streaming recenteRegressão de progresso no pyspark clássico
- [SPARK-53908][CONNECT] Corrigir observações no Spark Connect com cache de plano
- [SPARK-53973][Avro] Classificar erros para falha de fundição booleana AvroOptions
- Atualizações de segurança do sistema operacional.
- Outubro 21, 2025
- Atualizações de segurança do sistema operacional.
- Outubro 7, 2025
- [SPARK-53574] Corrigir o AnalysisContext a ser eliminado durante a resolução do plano aninhado
- [SPARK-53549][SS] Sempre feche o alocador de seta quando o processo de solicitação de estado da lista for concluído
- [SPARK-53568][CONNECT][PYTHON] Corrija vários pequenos bugs na lógica de tratamento de erros do cliente Python do Spark Connect
- [SPARK-53625][SS] Propagar colunas de metadados através de projeções para resolver a incompatibilidade ApplyCharTypePadding
- [SPARK-53598][SQL] Verifique a existência de numParts antes de ler a propriedade de tabela grande
- [SPARK-53623][SQL] melhorar a leitura das propriedades de uma tabela grande ...
- [SPARK-53555] Correção: O SparkML-connect não consegue carregar o modelo guardado pelo SparkML (modo legado)
-
[SPARK-53729][PYTHON][CONNECT] Corrigir serialização de
pyspark.sql.connect.window.WindowSpec - Atualizações de segurança do sistema operacional.
- Setembro 16, 2025
- Atualizações de segurança do sistema operacional.
- 9 de setembro de 2025
- Corrigido um problema que podia fazer com que o Auto Loader travasse indefinidamente.
- [SPARK-53362] [ML] [CONNECT] Corrigir erro do carregador local IDFModel
- [SPARK-53394][CORE] UninterruptibleLock.isInterruptible deve evitar a duplicação de interrupções
- [SPARK-53382][SQL] Corrigir bug em rCTE com recursão mal configurada
- [SPARK-53431][PYTHON] Corrija Python UDTF com argumentos de tabela nomeados na API DataFrame
-
[SPARK-53336] [ML] [CONNECT] Redefinir
MLCache.totalMLCacheSizeBytesquandoMLCache.clear()é chamado - [SPARK-49872][CORE] Remover a limitação de comprimento de cadeia JSON do Jackson
- Atualizações de segurança do sistema operacional.
- 25 de agosto de 2025
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.13 de 1.3.3 a 1.3.5
- [SPARK-52482][SQL][CORE] Melhorar o tratamento de exceções para ler certos arquivos zstd corrompidos
- [SPARK-53192][CONNECT] Sempre armazene em cache uma fonte de dados no cache do plano do Spark Connect
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 14 de agosto de 2025
-
[SPARK-52833][SQL] Correção
VariantBuilder.appendFloat - [SPARK-52961][PYTHON] Corrija UDTF Python otimizado para seta com eval de 0 arg na junção lateral
- [SPARK-51505][SQL] Mostrar sempre métricas de número de partições vazias em AQEShuffleReadExec
- [SPARK-52753][SQL] Tornar o binário parseDataType compatível com versões anteriores
- [SPARK-52842][SQL] Nova funcionalidade e correção de erros para o analisador de passagem única
- [SPARK-52960][SQL] Mostrar string da subárvore no método toString de LogicalQueryStage
- [SPARK-53054][CONNECT] Corrigir o comportamento padrão de formato do DataFrameReader na conexão
- Atualizações de segurança do sistema operacional.
-
[SPARK-52833][SQL] Correção
Tempo de execução do Databricks 17.0
Ver Databricks Runtime 17.0 (EoS).
- 9 de dezembro de 2025
- Tabelas Delta particionadas terão colunas de partição materializadas em ficheiros de parquet de dados daqui para a frente. Isto permite uma melhor sinergia com a forma como as tabelas Iceberg e UniForm são tratadas, e aumenta a compatibilidade com leitores externos não-Delta.
- Tanto para o conector Snowflake quanto para a Snowflake Lakehouse Federation,
TIMESTAMP_NTZ(carimbo de data/hora sem fuso horário) os literais não são mais transferidos para o Snowflake. Essa alteração evita falhas de consulta causadas por manipulação de carimbo de data/hora incompatível e melhora a confiabilidade das consultas afetadas. -
[SPARK-54427][SQL] Permitir que o ColumnarRow chame
copycom tipos variantes - [SPARK-54180][SQL] Sobrepor o toString do BinaryFileFormat
- Atualizações de segurança do sistema operacional.
- 18 de novembro de 2025
- [SPARK-54099][SQL] O parser variante XML deve voltar para string em caso de erros de análise decimal.
-
[SPARK-54015][PYTHON] Relaxar o requisito do Py4J para
py4j>=0.10.9.7,<0.10.9.10 -
[SPARK-54078][SS] Novo teste para
StateStoreSuite SPARK-40492: maintenance before unloade remover infra do teste antigo - [SPARK-54047][PYTHON] Usar um erro diferencial quando o tempo limite para encerrar por inatividade ocorre
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2025
- [SPARK-53908][CONNECT] Corrigir observações no Spark Connect com cache de plano
- [SPARK-53972][SS] Corrigir consulta de streaming recenteRegressão de progresso no pyspark clássico
- Atualizações de segurança do sistema operacional.
- Outubro 21, 2025
- Atualizações de segurança do sistema operacional.
- Outubro 7, 2025
- [SPARK-53598][SQL] Verifique a existência de numParts antes de ler a propriedade de tabela grande
- [SPARK-53568][CONNECT][PYTHON] Corrija vários pequenos bugs na lógica de tratamento de erros do cliente Python do Spark Connect
- [SPARK-53574] Corrigir o AnalysisContext a ser eliminado durante a resolução do plano aninhado
- [SPARK-53549][SS] Sempre feche o alocador de seta quando o processo de solicitação de estado da lista for concluído
- [SPARK-53623][SQL] melhorar a leitura das propriedades de uma tabela grande ...
-
[SPARK-53729][PYTHON][CONNECT] Corrigir serialização de
pyspark.sql.connect.window.WindowSpec - Atualizações de segurança do sistema operacional.
- Setembro 16, 2025
- Atualizações de segurança do sistema operacional.
- 9 de setembro de 2025
- Corrigido um problema que podia fazer com que o Auto Loader travasse indefinidamente.
- [SPARK-53394][CORE] UninterruptibleLock.isInterruptible deve evitar a duplicação de interrupções
-
[SPARK-53336] [ML] [CONNECT] Redefinir
MLCache.totalMLCacheSizeBytesquandoMLCache.clear()é chamado - [SPARK-49872][CORE] Remover a limitação de comprimento de cadeia JSON do Jackson
- [SPARK-53431][PYTHON] Corrija Python UDTF com argumentos de tabela nomeados na API DataFrame
- [SPARK-53382][SQL] Corrigir bug em rCTE com recursão mal configurada
- Atualizações de segurança do sistema operacional.
- 26 de agosto de 2025
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.13 de 1.3.3 a 1.3.5
- [SPARK-52482][SQL][CORE] Melhorar o tratamento de exceções para ler certos arquivos zstd corrompidos
- [SPARK-53192][CONNECT] Sempre armazene em cache uma fonte de dados no cache do plano do Spark Connect
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 14 de agosto de 2025
- [SPARK-51505][SQL] Mostrar sempre métricas de número de partições vazias em AQEShuffleReadExec
- [SPARK-53054][CONNECT] Corrigir o comportamento padrão de formato do DataFrameReader na conexão
- [SPARK-52961][PYTHON] Corrija UDTF Python otimizado para seta com eval de 0 arg na junção lateral
-
[SPARK-52833][SQL] Correção
VariantBuilder.appendFloat - Atualizações de segurança do sistema operacional.
- Julho 29, 2025
- [SPARK-51889][PYTHON][SS] Corrija um bug para MapState clear() em Python TWS
- [SPARK-52753][SQL] Tornar o binário parseDataType compatível com versões anteriores
- [SPARK-49428][SQL] Move Connect Scala Client do conector para o SQL
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Corrigido um problema de perda de dados não determinístico ao usar o Spark Structured Streaming para transmitir dados do Pulsar.
- [SPARK-52430][SQL] Corrigir bug com nulabilidade da Union em rCTEs
-
[SPARK-52503][SQL][CONNECT] Correção
dropquando a coluna de entrada não existe - [SPARK-52579][PYTHON] Configurar dump de traceback periódico para trabalhadores Python
- [SPARK-52450] Melhorar o desempenho do esquema deepcopy
- [SPARK-52599][PYTHON] Suporte para o despejo periódico de traceback nos trabalhadores do lado do servidor principal
- [SPARK-52553][SS] Corrigir NumberFormatException ao ler o changelog v1
- Atualizações de segurança do sistema operacional.
- Maio 28, 2025
- Bibliotecas Python atualizadas:
- google-auth de 2.40.0 a 2.40.1
- mlflow-skinny de 2.22.0 a 3.0.0
- OpenTelemetry-API de 1.32.1 a 1.33.0
- OpenTelemetry-SDK de 1.32.1 a 1.33.0
- OpenTelemetria-Semântica-Convenções de 0,53b1 a 0,54b0
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.13 de 1.3.0 a 1.3.3
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- Corrija a limitação de que a
cloud_files_statefunção TVF não pode ser usada para ler o estado no nível de arquivo de tabelas de streaming entre pipelines - Corrige problemas de autorização do Catálogo Unity para consultas em exibições temporárias.
- Sinalizador invertido em 17.0.1, implementado o flag SAFE em todos os workspaces na versão 17.0.0
- Suporte ao Delta Sharing para usar o cache de E/S do Spark Parquet para consultas que usam URLs pré-assinadas (disponível a partir da versão 17.0.1).
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- O conector Teradata agora passará um TMODE=ANSI para o driver por padrão. Isso significa que todas as comparações de strings feitas via Lakehouse Federation serão sensíveis a maiúsculas e minúsculas.
- [SPARK-51921][SS][PYTHON] Use o tipo long para a duração do TTL em milissegundos em transformWithState
- [SPARK-52259][ML][CONNECT] Corrigir compatibilidade binária da classe Param
- [SPARK-52195][PYTHON][SS] Corrigir o problema de eliminação da coluna de estado inicial para Python TWS
- [SPARK-52057] [ML] [CONNECT] Recolher mensagens de aviso sobre o limite de tamanho de árvore para o cliente
- [SPARK-52051] [ML] [CONNECT] Ativar resumo do modelo quando o controlo de memória está ativado
- [SPARK-51606][CONNECT] Adicione SPARK_IDENT_STRING ao parar o servidor Spark Connect
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementnão deve acessar a SQLConf dinamicamente - [SPARK-52232][SQL] Corrija consultas não determinísticas para produzir resultados diferentes em cada etapa
-
[SPARK-52013] [CONNECT] [ML] Remover
SparkConnectClient.ml_caches - [SPARK-52353][SQL] Corrigir bug com restrições erradas em LogicalRDDs fazendo referência a iterações anteriores no UnionLoop
- [SPARK-52130] [ML] [CONNECT] Refine a mensagem de erro e oculte a configuração interna do spark
- [SPARK-52470][ML][CONNECT] Descarregamento do resumo do modelo de suporte
- [SPARK-51935][SQL] Corrija o comportamento preguiçoso dos iteradores no df.collect() interpretado
- [SPARK-52482][SQL][CORE] Suporte ZStandard para leitor de fonte de dados de arquivo
- [SPARK-52159][SQL] Realizar corretamente a verificação da existência de tabelas para os dialetos JDBC
- [FAÍSCA-52010] Não gerar documentação de API para classes internas
- [SPARK-52049] Corrigir o erro de que os atributos XML não podem ser analisados como Variant
- [SPARK-52312][SQL] Ignorar V2WriteCommand ao armazenar em cache um DataFrame
- [SPARK-52229][ML][CONNECT] Melhorar a estimativa do tamanho do modelo
- [SPARK-50815][PYTHON] Corrigir dados locais variantes para conversão com Arrow
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference deve manter a ID do plano
- [SPARK-51981][SS] Adicionar JobTags a queryStartedEvent
- [CORRIGIR REVERSÃO][Spark-52100]](https://issues.apache.org/jira/browse/SPARK-52100)[SQL] Habilitar a substituição do limite de nível de recursão na sintaxe
- [SPARK-52101][SQL] Desativar o Forçamento em Linha para rCTEs
- [SPARK-52099][SQL] Habilitar a substituição do limite de linha de recursão adicionando um LIMIT operador
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
Tempo de execução do Databricks 16.3
Consulte Databricks Runtime 16.3 (EoS).
- Setembro 16, 2025
- O conector Snowflake agora usa a
INFORMATION_SCHEMAtabela em vez doSHOW SCHEMAScomando para listar esquemas. Essa alteração remove o limite de 10.000 esquemas da abordagem anterior e melhora o suporte para bancos de dados com um grande número de esquemas. - Atualizações de segurança do sistema operacional.
- O conector Snowflake agora usa a
- 9 de setembro de 2025
- Corrigido um problema que podia fazer com que o Auto Loader travasse indefinidamente.
- Corrigido um erro transitório no Auto Loader que pode fazer com que os trabalhos falhem.
- [SPARK-51821][CORE] Chamar interrupt() sem manter uninterruptibleLock para evitar possíveis impasses
- [SPARK-49872][CORE] Remover a limitação de comprimento de cadeia JSON do Jackson
- Atualizações de segurança do sistema operacional.
- 26 de agosto de 2025
- [SPARK-52482][SQL][CORE] Melhorar o tratamento de exceções para ler certos arquivos zstd corrompidos
- [SPARK-53192][CONNECT] Sempre armazene em cache uma fonte de dados no cache do plano do Spark Connect
- Atualizações de segurança do sistema operacional.
- 14 de agosto de 2025
- [SPARK-51011][CORE] Adicionar registo para verificar se uma tarefa será interrompida quando terminada
- Atualizações de segurança do sistema operacional.
- Julho 29, 2025
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Corrigido um problema de perda de dados não determinístico ao usar o Spark Structured Streaming para transmitir dados do Pulsar.
- [SPARK-52553][SS] Corrigir NumberFormatException ao ler o changelog v1
- Atualizações de segurança do sistema operacional.
- 1 de julho de 2025
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- [SPARK-52482][SQL][CORE] Suporte ZStandard para leitor de fonte de dados de arquivo
- [SPARK-52312][SQL] Ignorar V2WriteCommand ao armazenar em cache um DataFrame
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementnão deve acessar a SQLConf dinamicamente - Atualizações de segurança do sistema operacional.
- Junho 17, 2025
- Corrigida a limitação de que a função com valor de tabela
cloud_files_state(TVF) não pode ser usada para ler o estado das tabelas de streaming a nível de arquivo entre pipelines. - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference deve manter a ID do plano
- Atualizações de segurança do sistema operacional.
- Corrigida a limitação de que a função com valor de tabela
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- Criptografia de 41.0.7, 41.0.7, 42.0.5 a 42.0.5
- embalagem de 24.0, 24.1 até 24.1
- platformdirs de 3.10.0, 4.2.2 a 3.10.0
- pyparsing de 3.0.9 e 3.1.1 para 3.0.9
- Adicionado autocommand 2.2.2
- Adicionado backports.tarfile versão 1.2.0
- adicionado importlib_resources 6.4.0
- Inflect adicionado 7.3.1
- Adicionado jaraco.context 5.3.0
- Adicionado jaraco.functools 4.0.1
- Foi adicionado o jaraco.text 3.12.1
- Adicionado mais-itertools 10.3.0
- Adicionado pip 24.2
- Adicionado setuptools 74.0.0
- Adicionado tomli 2.0.1
- Atualização para typeguard 4.3.0
- Foi adicionado wcwidth 0.2.5
- Adicionada roda 0.43.0
- Removido distro 1.9.0
- Removido distro-info 1.7+build1
- Removido python-apt 2.7.7+ubuntu4
- [SPARK-52195][PYTHON][SS] Corrigir o problema de eliminação da coluna de estado inicial para Python TWS
- [SPARK-52159][SQL] Realizar corretamente a verificação da existência de tabelas para os dialetos JDBC
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.12 de 1.2.6 a 1.2.7
- org.apache.avro.avro de 1.11.3 a 1.11.4
- org.apache.avro.avro-ipc de 1.11.3 a 1.11.4
- org.apache.avro.avro-mapred de 1.11.3 a 1.11.4
- A sessão de streaming clonada será usada dentro da função do utilizador foreachBatch em Clusters Partilhados/Serverless. Isso está alinhado com o comportamento no modo clássico (Clusters atribuídos).
- A sessão de streaming clonada será usada dentro da função do utilizador foreachBatch em Clusters Partilhados/Serverless. Isso está alinhado com o comportamento no modo clássico (Clusters atribuídos).
- Antes dessa alteração, os espaços em branco e guias iniciais em caminhos na expressão eram ignorados quando o Photon estava desativado. Por exemplo,
select variant_get(parse_json('{"key": "value"}'), '$['key']')não seria eficaz na extração do valor de"key". No entanto, os usuários poderão extrair essas chaves agora. - [SPARK-51921][SS][PYTHON] Use o tipo long para a duração do TTL em milissegundos em transformWithState
- [SPARK-51935][SQL] Corrija o comportamento preguiçoso dos iteradores no df.collect() interpretado
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 22 de abril de 2025
- O rastreamento de esquema delta irá sinalizar erros de evolução do esquema com
DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_POST_SCHEMA_EVOLUTIONem vez deDELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_TYPE_WIDENINGpara ser consistente com outras exceções de alteração de esquema não aditivas. - [SPARK-51589][SQL] Corrigir pequeno bug ao não verificar funções agregadas em |>SELECT
- [SPARK-51645][SQL] Corrigir criar ou substituir TABLE ... agrupamento padrão ... consulta
- Reverter "[SPARK-47895][SQL] agrupar por alias deve ser idempotente" nas versões 15.4, 16.0, 16.1, 16.2 e 16.3
- [SPARK-51717][SS][RocksDB] Corrigir a corrupção por incompatibilidade de SST que pode ocorrer no segundo instantâneo criado para uma nova consulta
- O rastreamento de esquema delta irá sinalizar erros de evolução do esquema com
- 26 de março de 2025
- [SPARK-51624][SQL] Propagação dos metadados GetStructField no CreateNamedStruct.dataType
- [SPARK-51505][SQL] Registar as métricas do número de partições vazias no coalesce do AQE
- [SPARK-47895][SQL] agrupamento por alias deve ser idempotente
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 16.2
Consulte Databricks Runtime 16.2 (EoS).
- 14 de agosto de 2025
- [SPARK-51011][CORE] Adicionar registo para verificar se uma tarefa será interrompida quando terminada
- Atualizações de segurança do sistema operacional.
- Julho 29, 2025
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Corrigido um problema de perda de dados não determinístico ao usar o Spark Structured Streaming para transmitir dados do Pulsar.
- [SPARK-52553][SS] Corrigir NumberFormatException ao ler o changelog v1
- Atualizações de segurança do sistema operacional.
- 1 de julho de 2025
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementnão deve acessar a SQLConf dinamicamente - [SPARK-52312][SQL] Ignorar V2WriteCommand ao armazenar em cache um DataFrame
- [SPARK-52482][SQL][CORE] Suporte ZStandard para leitor de fonte de dados de arquivo
- Atualizações de segurança do sistema operacional.
- Junho 17, 2025
- Corrigida a limitação de que a função com valor de tabela
cloud_files_state(TVF) não pode ser usada para ler o estado das tabelas de streaming a nível de arquivo entre pipelines. - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference deve manter a ID do plano
- Atualizações de segurança do sistema operacional.
- Corrigida a limitação de que a função com valor de tabela
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- Criptografia de 41.0.7, 41.0.7, 42.0.5 a 42.0.5
- embalagem de 24.0, 24.1 até 24.1
- platformdirs de 3.10.0, 4.2.2 a 3.10.0
- pyparsing de 3.0.9 e 3.1.1 para 3.0.9
- Adicionado autocommand 2.2.2
- Adicionado backports.tarfile versão 1.2.0
- adicionado importlib_resources 6.4.0
- Inflect adicionado 7.3.1
- Adicionado jaraco.context 5.3.0
- Adicionado jaraco.functools 4.0.1
- Foi adicionado o jaraco.text 3.12.1
- Adicionado mais-itertools 10.3.0
- Adicionado pip 24.2
- Adicionado setuptools 74.0.0
- Adicionado tomli 2.0.1
- Atualização para typeguard 4.3.0
- Foi adicionado wcwidth 0.2.5
- Adicionada roda 0.43.0
- Removido distro 1.9.0
- Removido distro-info 1.7+build1
- Removido python-apt 2.7.7+ubuntu4
- [SPARK-52159][SQL] Realizar corretamente a verificação da existência de tabelas para os dialetos JDBC
- [SPARK-52195][PYTHON][SS] Corrigir o problema de eliminação da coluna de estado inicial para Python TWS
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.12 de 1.2.6 a 1.2.7
- org.apache.avro.avro de 1.11.3 a 1.11.4
- org.apache.avro.avro-ipc de 1.11.3 a 1.11.4
- org.apache.avro.avro-mapred de 1.11.3 a 1.11.4
- A sessão de streaming clonada será usada dentro da função do utilizador foreachBatch em Clusters Partilhados/Serverless. Isso está alinhado com o comportamento no modo clássico (Clusters atribuídos).
- A sessão de streaming clonada será usada dentro da função do utilizador foreachBatch em Clusters Partilhados/Serverless. Isso está alinhado com o comportamento no modo clássico (Clusters atribuídos).
- Antes dessa alteração, os espaços em branco e guias iniciais em caminhos na expressão eram ignorados quando o Photon estava desativado. Por exemplo,
select variant_get(parse_json('{"key": "value"}'), '$[' key']')não seria eficaz na extração do valor de"key". No entanto, os usuários poderão extrair essas chaves agora. - [SPARK-51935][SQL] Corrija o comportamento preguiçoso dos iteradores no df.collect() interpretado
- [SPARK-51921][SS][PYTHON] Use o tipo long para a duração do TTL em milissegundos em transformWithState
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 22 de abril de 2025
- [SPARK-51717][SS][RocksDB] Corrigir a corrupção por incompatibilidade de SST que pode ocorrer no segundo instantâneo criado para uma nova consulta
- Reverter "[SPARK-47895][SQL] agrupar por alias deve ser idempotente" nas versões 15.4, 16.0, 16.1, 16.2 e 16.3
- Atualizações de segurança do sistema operacional.
9 de abril de 2025
- Bibliotecas Java atualizadas:
- Removido io.starburst.openjson.openjson 1.8-e.12
- Removido io.starburst.openx.data.json-serde 1.3.9-e.12
- Removido io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] agrupamento por alias deve ser idempotente
- [SPARK-51505][SQL] Registar as métricas do número de partições vazias no coalesce do AQE
- [SPARK-51624][SQL] Propagação dos metadados GetStructField no CreateNamedStruct.dataType
- [SPARK-51589][SQL] Corrigir pequeno bug ao não verificar funções agregadas em |>SELECT
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
11 de março de 2025
- Databricks Runtime 14.3 LTS e versões superiores incluem uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnde foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd. - Reverter "[SPARK-48273][SQL] Corrigir reescrita atrasada de PlanWithUnresolvedIdentifier"
- [SPARK-50985][SS] Classificar o erro de incompatibilidade de Temporizações do Kafka em vez de afirmar e lançar erro para servidor ausente no KafkaTokenProvider
- [SPARK-51065][SQL] Não permitir esquema não anulável quando a codificação Avro é usada para TransformWithState
- [SPARK-51237][SS] Adicione detalhes da API para novas APIs auxiliares transformWithState conforme necessário
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-51351][SS] Não materialize a saída no Python worker para TWS
- [SPARK-51084][SQL] Atribua a classe de erro apropriada para negativeScaleNotAllowedError
- [SPARK-51249][SS] Corrigindo a codificação NoPrefixKeyStateEncoder e Avro para usar o número correto de bytes de versão
- Atualizações de segurança do sistema operacional.
- Databricks Runtime 14.3 LTS e versões superiores incluem uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
5 de fevereiro de 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimalestá ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50770][SS] Removendo o escopo de pacote das APIs do operador transformWithState
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
Tempo de execução do Databricks 16.1
Consulte Databricks Runtime 16.1 (EoS).
- 12 de agosto de 2025
- Atualizações de segurança do sistema operacional.
Julho 29, 2025
- Atualizações de segurança do sistema operacional.
Julho 15, 2025
- Atualizações de segurança do sistema operacional.
1 de julho de 2025
- Suporte à descompressão ZStandard para leitores de fonte de dados de arquivo (json, csv, xml e texto.)
- [SPARK-52482][SQL][CORE] Suporte ZStandard para leitor de fonte de dados de arquivo
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementnão deve acessar a SQLConf dinamicamente - [SPARK-52312][SQL] Ignorar V2WriteCommand ao armazenar em cache um DataFrame
- Atualizações de segurança do sistema operacional.
Junho 17, 2025
- Corrigida a limitação de que a função com valor de tabela
cloud_files_state(TVF) não pode ser usada para ler o estado das tabelas de streaming a nível de arquivo entre pipelines. - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference deve manter a ID do plano
- Atualizações de segurança do sistema operacional.
- Corrigida a limitação de que a função com valor de tabela
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- Criptografia de 41.0.7, 41.0.7, 42.0.5 a 42.0.5
- embalagem de 24.0, 24.1 até 24.1
- platformdirs de 3.10.0, 4.2.2 a 3.10.0
- pyparsing de 3.0.9 e 3.1.1 para 3.0.9
- Adicionado autocommand 2.2.2
- Adicionado backports.tarfile versão 1.2.0
- adicionado importlib_resources 6.4.0
- Inflect adicionado 7.3.1
- Adicionado jaraco.context 5.3.0
- Adicionado jaraco.functools 4.0.1
- Foi adicionado o jaraco.text 3.12.1
- Adicionado mais-itertools 10.3.0
- Adicionado pip 24.2
- Adicionado setuptools 74.0.0
- Adicionado tomli 2.0.1
- Atualização para typeguard 4.3.0
- Foi adicionado wcwidth 0.2.5
- Adicionada roda 0.43.0
- Removido distro 1.9.0
- Removido distro-info 1.7+build1
- Removido python-apt 2.7.7+ubuntu4
- Bibliotecas Java atualizadas:
- com.github.fommil.netlib.native_ref-java de 1.1, 1.1-nativas para 1.1, 1.1
- com.github.fommil.netlib.native_system-java de 1.1, 1.1-native para 1.1, 1.1
- com.github.fommil.netlib.netlib-native_ref-linux-x86_64 de 1.1-natives para 1.1
- com.github.fommil.netlib.netlib-native_system-linux-x86_64 de 1.1-nativos para 1.1
- io.netty.netty-tcnative-boringssl-static de 2.0.61.Final-db-r16, 2.0.61.Final-db-r16-linux-aarch_64, 2.0.61.Final-db-r16-linux-x86_64, 2.0.61.Final-db-r16-osx-aarch_64, 2.0.61.Final-db-r16-osx-x86_64, 2.0.61.Final-db-r16-windows-x86_64 para 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16
- io.netty.netty-transport-native-epoll de 4.1.108.Final, 4.1.108.Final-linux-aarch_64, 4.1.108.Final-linux-riscv64, 4.1.108.Final-linux-x86_64 a 4.1.108.Final, 4.1.108.Final, 4.1.108.Final, 4.1.108.Final
- io.netty.netty-transport-native-kqueue de 4.1.108.Final-osx-aarch_64, 4.1.108.Final-osx-x86_64 a 4.1.108.Final, 4.1.108.Final
- org.apache.orc.orc-core de 1.9.2-shaded-protobuf para 1.9.2
- org.apache.orc.orc-mapreduce de 1.9.2-shaded-protobuf para 1.9.2
- software.amazon.cryptools.AmazonCorrettoCryptoProvider da versão 2.4.1-linux-x86_64 para a versão 2.4.1
- [SPARK-52159][SQL] Realizar corretamente a verificação da existência de tabelas para os dialetos JDBC
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- Bibliotecas Java atualizadas:
- io.delta.delta-sharing-client_2.12 de 1.2.5 a 1.2.7
- org.apache.avro.avro de 1.11.3 a 1.11.4
- org.apache.avro.avro-ipc de 1.11.3 a 1.11.4
- org.apache.avro.avro-mapred de 1.11.3 a 1.11.4
- A sessão de streaming clonada será usada dentro da função do utilizador foreachBatch em Clusters Partilhados/Serverless. Isso está alinhado com o comportamento no modo clássico (Clusters atribuídos).
- Antes dessa alteração, os espaços em branco e guias iniciais em caminhos na expressão eram ignorados quando o Photon estava desativado. Por exemplo,
select variant_get(parse_json('{"key": "value"}'), '$['key']')não seria eficaz na extração do valor de"key". No entanto, os usuários poderão extrair essas chaves agora. - [SPARK-51935][SQL] Corrija o comportamento preguiçoso dos iteradores no df.collect() interpretado
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 22 de abril de 2025
- Reverter "[SPARK-47895][SQL] agrupar por alias deve ser idempotente" nas versões 15.4, 16.0, 16.1, 16.2 e 16.3
- [SPARK-50682][SQL] Alias interno deve ser canonicalizado
- [SPARK-51717][SS][RocksDB] Corrigir a corrupção por incompatibilidade de SST que pode ocorrer no segundo instantâneo criado para uma nova consulta
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Bibliotecas Java atualizadas:
- Removido io.starburst.openjson.openjson 1.8-e.12
- Removido io.starburst.openx.data.json-serde 1.3.9-e.12
- Removido io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-51505][SQL] Registar as métricas do número de partições vazias no coalesce do AQE
- [SPARK-51624][SQL] Propagação dos metadados GetStructField no CreateNamedStruct.dataType
- [SPARK-47895][SQL] agrupamento por alias deve ser idempotente
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 11 de março de 2025
- Databricks Runtime 14.3 LTS e versões superiores incluem uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnde foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd. - [SPARK-51084][SQL] Atribua a classe de erro apropriada para negativeScaleNotAllowedError
- Reverter [SPARK-48273][SQL] Corrigir reescrita atrasada de PlanWithUnresolvedIdentifier
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-50985][SS] Classificar o erro de incompatibilidade de Temporizações do Kafka em vez de afirmar e lançar erro para servidor ausente no KafkaTokenProvider
- [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do State Store
- Atualizações de segurança do sistema operacional.
- Databricks Runtime 14.3 LTS e versões superiores incluem uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimalestá ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50492][SS] Corrija java.util.NoSuchElementException quando a coluna de hora do evento é descartada após dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 27 de novembro de 2024
- Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados a compactação automática em segundo plano.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimalestá ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks expande-se dinamicamente até alcançar o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage. Consulte Otimizar o desempenho com cache no Azure Databricks. - [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 16.0
Consulte Databricks Runtime 16.0 (EoS).
- 22 de abril de 2025
- Reverter "[SPARK-47895][SQL] agrupar por alias deve ser idempotente" nas versões 15.4, 16.0, 16.1, 16.2 e 16.3
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Bibliotecas Java atualizadas:
- Removido io.starburst.openjson.openjson 1.8-e.12
- Removido io.starburst.openx.data.json-serde 1.3.9-e.12
- Removido io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] agrupamento por alias deve ser idempotente
- [SPARK-51624][SQL] Propagação dos metadados GetStructField no CreateNamedStruct.dataType
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 11 de março de 2025
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnde foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd. - [SPARK-51084][SQL] Atribua a classe de erro apropriada para negativeScaleNotAllowedError
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-50985][SS] Classificar o erro de incompatibilidade de Temporizações do Kafka em vez de afirmar e lançar erro para servidor ausente no KafkaTokenProvider
- [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do State Store
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimalestá ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. -
[SPARK-50705][SQL] Tornar
QueryPlansem bloqueio - [SPARK-50492][SS] Corrija java.util.NoSuchElementException quando a coluna de hora do evento é descartada após dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 4 de dezembro de 2024
- A declaração
USE CATALOGapoia agora a cláusulaIDENTIFIER. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados a compactação automática em segundo plano.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks expande-se dinamicamente até alcançar o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage. Consulte Otimizar o desempenho com cache no Azure Databricks. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
-
[SPARK-50034][CORE] Corrigir o Reporte Incorreto de Erros Fatais como Exceções Não Detectadas em
SparkUncaughtExceptionHandler - [SPARK-47435][SQL] Corrige problema de overflow do MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Adicionar suporte para expressão IDENTIFIER na SETCATALOG instrução
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
- A declaração
- 10 de dezembro de 2024
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()eregexp_extract(), aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{'), que contém uma chave não correspondente e foi anteriormente aceita por Photon, agora não funciona. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{'). O comportamento de Photon e Spark também diferiu na correspondência de expressões regulares de caracteres não-ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - Com esta versão, agora você pode consultar a função
vector_searchusandoquery_textpara entrada de texto ouquery_vectorpara incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout. Para notebooks executados em computação sem servidor, o valor padrão é9000(segundos). Os trabalhos executados na computação sem servidor e na computação com modo de acesso padrão não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED. - [SPARK-49843][SQL] Corrigir comentários de alteração em colunas char/varchar
- [c0][SPARK-49924][/c0][SQL] Manter após a substituição de
containsNull - [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-48780][SQL] Tornar genérica a gestão de erros em NamedParametersSupport para lidar com funções e procedimentos
- [SPARK-49876][CONNECT] Livre-se de bloqueios globais do Serviço Spark Connect
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49615] Correção de bug: Tornar a validação do esquema de coluna ML compatível com a configuração do Spark spark.sql.caseSensitive.
- [SPARK-48782][SQL] Adicionar suporte para executar procedimentos em catálogos
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- Reverter "[SPARK-49002][SQL] Lidar de forma consistente com localizações inválidas em WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY"
- [SPARK-50028][CONNECT] Substitua bloqueios globais no ouvinte do servidor Spark Connect por bloqueios refinados
- [SPARK-49615] [ML] Assegure que toda a validação do esquema dos datasets de transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
Tempo de execução do Databricks 15.3
Consulte Databricks Runtime 15.3 (EoS).
- 26 de novembro de 2024
- Com esta versão, agora você pode consultar a função
vector_searchusandoquery_textpara entrada de texto ouquery_vectorpara incorporar entrada. - Atualizações de segurança do sistema operacional.
- Com esta versão, agora você pode consultar a função
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
-
[SPARK-48719][SQL] Corrija o bug de cálculo do
RegrSlope&RegrInterceptquando o primeiro parâmetro é nulo - Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-49526][CONNECT][15.3.5] Suporte para caminhos no estilo Windows no ArtifactManager
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_stringquando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48954] try_mod() substitui try_remainder()
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- 1 de agosto de 2024
- [Mudança de rutura] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python (UDF), função de agregação definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo de
VARIANTcomo um argumento ou valor de retorno gera uma exceção. Essa alteração é feita para evitar problemas que podem ocorrer devido a um valor inválido retornado por uma dessas funções. Para saber mais sobre o tipo deVARIANT, consulte para saber como usar VARIANTs para armazenar dados semiestruturados. - Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações de streaming.
- [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48834][SQL] Desativar entrada/saída de variantes para UDFs, UDTFs, UDAFs escalares em Python durante a compilação de consultas
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [SPARK-49054][SQL] Valor padrão da coluna deve suportar funções current_*
- [SPARK-48653][PYTHON] Corrigir referências inválidas de classes de erro de fonte de dados em Python
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- Atualizações de segurança do sistema operacional.
- [Mudança de rutura] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python (UDF), função de agregação definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo de
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48273][master][SQL] Corrigir reescrita tardia de PlanWithUnresolvedIdentifier
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta que aponta para UNSUPPORTED_GROUPING_EXPRESSION
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
Tempo de execução do Databricks 15.2
Consulte Databricks Runtime 15.2 (EoS).
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-48719][SQL] Corrigir o erro de cálculo de RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_stringquando o nível INFO não estiver ativado - [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- 1 de agosto de 2024
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações de streaming.
- A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações de streaming.
- A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Em blocos de anotações e trabalhos sem servidor, o modo ANSI SQL será habilitado por padrão e suportará nomes curtos
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta que aponta para UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()está disponível em clusters compartilhados. - Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
- Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__paraSQLExpression - [SPARK-48014][SQL] Altere a mensagem de erro makeFromJava no EvaluatePython para uma mensagem de erro para o usuário
- [SPARK-48016][SQL] Corrigir um bug na função try_divide ao lidar com decimais
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48056][CONNECT][PYTHON] Execute novamente o plano se um erro de SESSION_NOT_FOUND for levantado e não for recebida nenhuma resposta parcial
- [SPARK-48172][SQL] Corrigir problemas de escapamento no backport dos JDBCDialects para a versão 15.2
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48288] Adicionar tipo de dados de origem para expressão de transmissão de conector
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-47764][CORE][SQL] Limpeza de dependências aleatórias com base em ShuffleCleanupMode
- [SPARK-47921][CONNECT] Corrigir a criação de ExecuteJobTag em ExecuteHolder
- [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-48146][SQL] Corrigir a função de agregação na expressão 'With' do filho
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- Atualizações de segurança do sistema operacional.
-
Tempo de execução do Databricks 15.1
Consulte Databricks Runtime 15.1 (EoS).
- Outubro 22, 2024
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-48719][SQL] Corrigir o erro de cálculo de RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_stringquando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- 1 de agosto de 2024
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações de streaming.
- A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações de streaming.
- A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-47309][SQL] XML: Adicionar testes de inferência de esquema para etiquetas de valor
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()está disponível em clusters compartilhados. - Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__paraSQLExpression - [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [FAÍSCA-47764][CORE][SQL] Limpeza de dependências aleatórias com base em ShuffleCleanupMode
- Atualizações de segurança do sistema operacional.
-
- 21 de maio de 2024
- Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48016][SQL] Corrigir um bug na função try_divide ao lidar com decimais
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- [SPARK-48014][SQL] Altere a mensagem de erro makeFromJava no EvaluatePython para uma mensagem de erro para o usuário
- [SPARK-48056][CONNECT][PYTHON] Execute novamente o plano se um erro de SESSION_NOT_FOUND for levantado e não for recebida nenhuma resposta parcial
- [SPARK-48146][SQL] Corrigir a função de agregação na expressão 'With' do filho
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-47543][CONECTAR][PYTHON] Inferindo dict como MapType do Pandas DataFrame para permitir a criação de um DataFrame
- [FAÍSCA-47739][SQL] Registrar tipo avro lógico
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming -
[SPARK-47855][CONNECT] Adicionar
spark.sql.execution.arrow.pyspark.fallback.enabledna lista não suportada - [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-47941] [SS] [Connect] Propagar erros de inicialização do processo ForeachBatch aos utilizadores para o PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Usar callback assíncrono para limpeza de execução
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47839][SQL] Corrigir erro de agregação em RewriteWithExpression
- [SPARK-48018][SS] Corrigir groupId nulo causando um erro de parâmetro ausente quando ocorre KafkaException.couldNotReadOffsetRange.
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [FAÍSCA-47907][SQL] Coloque bang sob uma configuração
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 15.0
Consulte Databricks Runtime 15.0 (EoS).
- 30 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- 25 de abril de 2024
- [SPARK-47786]SELECT DISTINCT () não deve transformar-se em SELECT DISTINCT struct() (reverter para o comportamento anterior)
[SQL] Reverter de (struct) para * - [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-47722] Aguarde até que o trabalho em segundo plano do RocksDB termine antes de fechar
- [SPARK-47081][CONNECT][FOLLOW] Aperfeiçoando a usabilidade do gestor de progresso
- [SPARK-47694][CONNECT] Torne o tamanho máximo da mensagem configurável no lado do cliente
-
[SPARK-47669][SQL][CONNECT][PYTHON] Adicionar
Column.try_cast - [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Validar o nome da coluna com o esquema armazenado em cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho de pedidos de análise
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
- [SPARK-47755][CONECTAR] O pivô falha quando o número de valores distintos é demasiado elevado
- [SPARK-47713][SQL][CONECTAR] Corrigir uma falha de auto-junção
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para o trabalhador ForEachBatch
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwritefalha devido a um plano inválido - [SPARK-47862][PYTHON][CONNECT] Corrigir a geração de arquivos proto
- [FAÍSCA-47800][SQL] Criar novo método para conversão de identificador em tableIdentifier
- Atualizações de segurança do sistema operacional.
- 3 de abril de 2024
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- UDFs com um tipo de retorno
stringnão convertem mais implicitamente não-stringvalores em valoresstring. Anteriormente, UDFs com um tipo de retorno destrencapsulavam o valor de retorno com uma funçãostr(), independentemente do tipo de dados real do valor retornado. - UDFs com tipos de retorno
timestampjá não aplicam implicitamente uma conversão paratimestampcomtimezone. - As configurações de
spark.databricks.sql.externalUDF.*cluster do Spark não se aplicam mais às UDFs do PySpark em clusters compartilhados. - A configuração
spark.databricks.safespark.externalUDF.plan.limitdo cluster Spark já não afeta os UDFs do PySpark, eliminando a limitação de Pré-Visualização Pública de 5 UDFs por consulta. - A configuração
spark.databricks.safespark.sandbox.size.default.mibde cluster do Spark não se aplica mais a UDFs do PySpark em clusters compartilhados. Em vez disso, a memória disponível no sistema é usada. Para limitar a memória de UDFs do PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimitcom um valor mínimo de100m.
- UDFs com um tipo de retorno
- O
TimestampNTZtipo de dados agora é suportado como uma coluna de clustering com clustering líquido. Veja Utilizar clustering líquido para tabelas. - [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- [SPARK-47033][SQL] Corrigir EXECUTE IMMEDIATE USING não reconhece nomes de variáveis de sessão
- [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- [SPARK-47561][SQL] Corrigir problemas de ordem de regra do analisador a respeito de Alias
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [FAÍSCA-46906][BACKPORT][SS] Adicionar uma verificação de alteração de operador com monitoração de estado para streaming
- [FAÍSCA-47569][SQL] Não permitir a comparação de variantes.
- [SPARK-47241][SQL] Corrigir questões de ordenação de regras para ExtractGenerator
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
-
[FAÍSCA-47300][SQL]
quoteIfNeededdeve citar o identificador que começa com dígitos - [FAÍSCA-47009][SQL][Colação] Habilitar a criação de suporte de tabela para agrupamento
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed - [SPARK-47544][PYTHON] O método builder do SparkSession é incompatível com o IntelliSense do Visual Studio Code
- [FAÍSCA-47511][SQL] Canonalizar com expressões reatribuindo IDs
- [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [SPARK-47380][CONNECT] Certifique-se no servidor de que o SparkSession é o mesmo
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
Tempo de execução do Databricks 14.2
Consulte Databricks Runtime 14.2 (EoS).
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- 25 de setembro de 2024
- [SPARK-48719][SQL] Corrigir o bug de cálculo de “RegrS...”
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- 14 de agosto de 2024
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVectorclasses eColumnarArrayna interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsExceptionpoderia ser lançado ou dados incorretos poderiam ser retornados quando uma instância de uma dessas classes continha valoresnull. - A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__paraSQLExpression - [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
-
[SPARK-48044][PYTHON][CONECTOR] Cache
DataFrame.isStreaming - [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para o trabalhador ForEachBatch
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
-
[SPARK-48044][PYTHON][CONECTOR] Cache
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwritefalha devido a um plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed - [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
-
[FAÍSCA-47300][SQL]
quoteIfNeededdeve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- Atualizações de segurança do sistema operacional.
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
- Março 14, 2024
- [SPARK-47035][SS][CONECTE] Protocolo para escutador do lado do cliente
- [FAÍSCA-47121][CORE] Evite RejectedExecutionExceptions durante o desligamento do StandaloneSchedulerBackend
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de varredura da fonte de dados de linha na estratégia V2.
- [SPARK-47176][SQL] Criar uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47129][CONNECT][SQL] Realizar corretamente o plano de ligação ao cache
- [FAÍSCA-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Agora pode ingerir ficheiros XML usando Auto Loader,
read_files,COPY INTOLakeflow Spark Declarative Pipelines e Databricks SQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, suportar expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote spark-xml externo, consulte aqui para obter orientações sobre migração. - [SPARK-46954][SQL] XML: Wrap InputStreamReader com BufferedReader
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na escrita
- [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [FAÍSCA-46993][SQL] Corrigir dobragem constante para variáveis de sessão
- 8 de fevereiro de 2024
- Não há suporte para consultas de feed de dados (CDF) de alteração em vistas materializadas do Unity Catalog, e tentar executar uma consulta CDF com uma vista materializada do Unity Catalog resulta num erro. As tabelas de Unity Catalog Streaming suportam consultas CDF em tabelas CDC não AUTO no Databricks Runtime 14.1 e versões posteriores. As consultas CDF não são suportadas com tabelas do Unity Catalog Streaming no Databricks Runtime 14.0 e anteriores.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para tipo catalyst no jdbc.
- [SPARK-46952] XML: Limite o tamanho do registo corrompido.
- [SPARK-46644] Alterar adicionar e fundir no SQLMetric para usar isZero.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
-
[SPARK-46382] XML: Atualizar doc para
ignoreSurroundingSpaces. - [SPARK-46382] XML: Captura valores intercalados entre elementos.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[SPARK-46677] Corrigir
dataframe["*"]a resolução. - [SPARK-46382] XML: Padrão ignoreSurroundingSpaces para verdadeiro.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45964] Remova o acesso privado ao sql nos pacotes XML e JSON dentro do pacote catalyst.
- [SPARK-46581] Atualizar comentário sobre isZero em AccumulatorV2.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração para a API HDFS para permitir acessibilidade ao armazenamento em nuvem.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46660] ReattachExecute solicita atualizações do status de atividade do SessionHolder.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
-
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables(). - [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
-
[FAÍSCA-45962] Remova
treatEmptyValuesAsNullse use a opçãonullValueem vez disso no XML. - [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- Atualizações de segurança do sistema operacional.
-
[SPARK-46382] XML: Atualizar doc para
- 17 de janeiro de 2024
- O nó
shuffledo plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=truequando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46261]
DataFrame.withColumnsRenameddeve manter a ordem do dicionário/mapa. -
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. - [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
-
[FAÍSCA-46484] Faça
resolveOperatorscom que as funções auxiliares mantenham a ID do plano. -
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchemaestá definido como verdadeiro. - [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Desativar subconsultas com OFFSET correlacionadas para corrigir um erro de correção.
- [SPARK-46152] XML: Adicionar suporte a DecimalType na inferência de esquema XML.
-
[SPARK-46602] Propagar
allowExistingquando a vista/a tabela não existir na criação da vista. - [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
- [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
- [FAÍSCA-46153] XML: Adicionar suporte a TimestampNTZType.
- [FAÍSCA-46056][BACKPORT] Corrija o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenameddeve respeitar a ordem do dicionário. - [SPARK-46036] Removendo a classe de erro da função raise_error.
- [SPARK-46294] Aperfeiçoar a semântica do valor inicial versus zero.
- [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
- [SPARK-46250] Estabilizar test_parity_listener.
- [SPARK-46587] XML: Corrigir a conversão de inteiro grande em XSD.
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46241] Corrigiu a rotina de tratamento de erros para que não caísse em recursão infinita.
- [SPARK-46355] XML: Fechar o InputStreamReader na conclusão da leitura.
- [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46265] Asserções em AddArtifact RPC tornam o cliente de conexão incompatível com clusters mais antigos.
- [FAÍSCA-46308] Proibir o tratamento de erros recursivos.
-
[FAÍSCA-46337] Faça
CTESubstitutionreter oPLAN_ID_TAG.
- O nó
- 14 de dezembro de 2023
- [SPARK-46141] Alterar o predefinido para spark.sql.legacy.ctePrecedencePolicy para CORRIGIDO.
- [SPARK-45730] Torne o ReloadingX509TrustManagerSuite menos instável.
- [FAÍSCA-45852] Lide adequadamente com o erro de recursão durante o registo.
- [SPARK-45808] Melhor tratamento de erros para exceções SQL.
- [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- Reverter "[SPARK-45649] Unifique a estrutura de preparação para
OffsetWindowFunctionFrame". - [SPARK-45733] Suporte várias políticas de repetição.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45905] O tipo inferior comum entre os tipos decimais deve dar prioridade aos dígitos integrais.
- [SPARK-45136] Melhore o ClosureCleaner com suporte de Ammonite.
- [SPARK-46255] Apoiar conversão de tipo complexo para string.
- [FAÍSCA-45859] Torne os objetos UDF em ml.functions preguiçosos.
-
[SPARK-46028] Permitir que
Column.__getitem__aceite a coluna de entrada. - [FAÍSCA-45798] Declare a ID da sessão do lado do servidor.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutputevalidateExprIdUniqueness. - [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
-
[FAÍSCA-45770] Introduza o plano
DataFrameDropColumnsparaDataframe.drop. - [SPARK-44790] XML: implementação de to_xml e ligações para Python, Connect e SQL.
- [SPARK-45851] Suporte a várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfixpara corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. - [SPARK-45852] O cliente Python para Spark Connect agora deteta erros de recursão durante a conversão de texto.
- [SPARK-45808] Tratamento de erros melhorado para exceções SQL.
-
[FAÍSCA-45920]
GROUP BYo ordinal não substitui o ordinal. - Reverter [SPARK-45649].
- [SPARK-45733] Suporte adicionado de várias políticas de repetição.
-
[FAÍSCA-45509] Comportamento de referência de coluna fixo
dfpara o Spark Connect. -
[SPARK-45655] Permitir expressões não determinísticas dentro de
AggregateFunctionsemCollectMetrics. - [SPARK-45905] O tipo menos comum entre os tipos decimais agora prioriza a retenção de dígitos integrais.
-
[SPARK-45136] Melhorar
ClosureCleanercom suporte a Ammonite. -
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. -
[SPARK-46028]
Column.__getitem__aceita colunas de entrada. - [FAÍSCA-45798] Declare a ID da sessão do lado do servidor.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutputevalidateExprIdUniqueness. - [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
-
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumnsparaDataframe.drop. -
[SPARK-44790] Adicionada
to_xmlimplementação e ligações para Python, Spark Connect e SQL. - [SPARK-45851] Adicionado suporte para várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
Tempo de execução do Databricks 14.1
Consulte Databricks Runtime 14.1 (EoS).
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- 10 de outubro de 2024
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-48719][SQL] Corrigir o bug de cálculo de “RegrS...”
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- 14 de agosto de 2024
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVectorclasses eColumnarArrayna interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsExceptionpoderia ser lançado ou dados incorretos poderiam ser retornados quando uma instância de uma dessas classes continha valoresnull. - A saída de uma
SHOW CREATE TABLEinstrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__paraSQLExpression - [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
-
[SPARK-48044][PYTHON][CONECTAR] Cache
DataFrame.isStreaming - [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwritefalha devido a um plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
-
[FAÍSCA-47300][SQL]
quoteIfNeededdeve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed - [SPARK-47300] Correção para DecomposerSuite
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47176][SQL] Criar uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de varredura da fonte de dados de linha na estratégia V2.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47129][CONNECT][SQL] Realizar corretamente o plano de ligação ao cache
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Agora pode ingerir ficheiros XML usando Auto Loader,
read_files,COPY INTOLakeflow Spark Declarative Pipelines e Databricks SQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, suportar expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote spark-xml externo, consulte aqui para obter orientações sobre migração. - [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Wrap InputStreamReader com BufferedReader
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na escrita
- Atualizações de segurança do sistema operacional.
- 8 de fevereiro de 2024
- Não há suporte para consultas de feed de dados (CDF) de alteração em vistas materializadas do Unity Catalog, e tentar executar uma consulta CDF com uma vista materializada do Unity Catalog resulta num erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas CDC não AUTO no Databricks Runtime 14.1 e posterior. As consultas CDF não são suportadas com tabelas de streaming do Unity Catalog no Databricks Runtime 14.0 e anteriores.
- [SPARK-46952] XML: Limite o tamanho do registo corrompido.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de efetuar o commit na agregação de fluxo em modo de saída.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para tipo catalyst no jdbc.
- [SPARK-45957] Evite gerar plano de execução para comandos não executáveis.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-45498] Seguimento: Ignorar a conclusão de tarefas de fases antigas.
-
[SPARK-46382] XML: Atualizar doc para
ignoreSurroundingSpaces. -
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables(). - [SPARK-46382] XML: Padrão ignoreSurroundingSpaces para verdadeiro.
-
[SPARK-46677] Corrigir
dataframe["*"]a resolução. - [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração para a API HDFS para permitir acessibilidade ao armazenamento em nuvem.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- [SPARK-46382] XML: Captura valores intercalados entre elementos.
- [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
- [SPARK-45964] Remova o acesso privado ao sql nos pacotes XML e JSON dentro do pacote catalyst.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[FAÍSCA-45962] Remova
treatEmptyValuesAsNullse use a opçãonullValueem vez disso no XML. - [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffledo plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=truequando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. - [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
-
[FAÍSCA-46484] Faça
resolveOperatorscom que as funções auxiliares mantenham a ID do plano. - [FAÍSCA-46153] XML: Adicionar suporte a TimestampNTZType.
- [SPARK-46152] XML: Adicionar suporte a DecimalType na inferência de esquema XML.
- [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
-
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchemaestá definido como verdadeiro. -
[FAÍSCA-46337] Faça
CTESubstitutionreter oPLAN_ID_TAG. - [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
- [SPARK-46587] XML: Corrigir a conversão de inteiro grande em XSD.
- [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
-
[SPARK-46602] Propagar
allowExistingquando a vista/a tabela não existir na criação da vista. - [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
- [SPARK-46355] XML: Fechar o InputStreamReader na conclusão da leitura.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenameddeve manter a ordem do dicionário/mapa. - [SPARK-46056] Corrigir o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenameddeve respeitar a ordem do dicionário. - [SPARK-46250] Estabilizar test_parity_listener.
- [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
- [SPARK-46141] Alterar o predefinido para spark.sql.legacy.ctePrecedencePolicy para CORRIGIDO.
-
[SPARK-46028] Permitir que
Column.__getitem__aceite a coluna de entrada. - [SPARK-46255] Apoiar conversão de tipo complexo para string.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando as datas e horas não corresponderem ao formato de data e hora especificado.
-
[SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles/ignoreMissingFilesaHadoopRDDeNewHadoopRDD. - [FAÍSCA-45852] Lide adequadamente com o erro de recursão durante o registo.
- [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfixpara corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - Ao ingerir dados CSV usando o Auto Loader ou tabelas de streaming, arquivos CSV grandes agora são dividiveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutputevalidateExprIdUniqueness. - [SPARK-45620] APIs relacionadas com Python UDF agora usam camelCase.
-
[SPARK-44790] Adicionada
to_xmlimplementação e ligações para Python, Spark Connect e SQL. -
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumnsparaDataframe.drop. -
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. - [SPARK-44784] Fez com que os testes do SBT fossem herméticos.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
-
[SPARK-45545]
SparkTransportConfherda no momento daSSLOptionscriação. - [SPARK-45250] Adicionado suporte para perfil de recursos de tarefas a nível de estágio para clusters YARN quando a alocação dinâmica está desligada.
- [SPARK-44753] Adicionado gravador e leitor XML DataFrame para PySpark SQL.
-
[FAÍSCA-45396] Adicionada uma entrada de documentação para o módulo
PySpark.ml.connect. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. - [SPARK-45541] Adicionado SSLFactory.
-
[SPARK-45577] Corrigido
UserDefinedPythonTableFunctionAnalyzeRunnerpara passar valores dobrados de argumentos nomeados. - [SPARK-45562] Tornou 'rowTag' uma opção obrigatória.
-
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptionseSparkTransportConf. - [SPARK-43380] Corrigida lentidão na leitura Avro.
-
[FAÍSCA-45430]
FramelessOffsetWindowFunctionjá não falha quandoIGNORE NULLSeoffset > rowCount. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45386] Corrigido um problema em que
StorageLevel.NONEretornava incorretamente 0. - [SPARK-44219] Adicionadas verificações de validação por regra para reescritas de otimização.
-
[FAÍSCA-45543] Corrigida uma questão onde
InferWindowGroupLimitcausava um conflito caso as outras funções de janela não utilizassem o mesmo quadro de janela que as funções tipo classificação. - Atualizações de segurança do sistema operacional.
-
[SPARK-45545]
- 27 de setembro de 2023
-
[SPARK-44823] Atualizado
blackpara 23.9.1 e corrigida verificação errónea. - [SPARK-45339] O PySpark agora regista erros que tenta novamente.
- Reverter [SPARK-42946] Dados confidenciais editados aninhados em substituições variáveis.
- [SPARK-44551] Comentários editados para sincronizar com o OSS.
-
[SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE. -
[SPARK-45279] Anexada
plan_ida todos os planos lógicos. -
[FAÍSCA-45425] Mapeado
TINYINTparaShortTypeMsSqlServerDialect. - [SPARK-45419] Removida a entrada do mapa de versão de arquivo de versões de maior tamanho para evitar a reutilização de IDs de arquivo sst.
-
[SPARK-45488] Adicionado suporte para valor no elemento
rowTag. -
[SPARK-42205] Removido o registo de eventos de início nos registos de eventos de
Accumulables. -
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager. -
[SPARK-45256]
DurationWriterfalha ao escrever mais valores do que a capacidade inicial. -
[SPARK-43380] Corrigidos
Avroproblemas de conversão de tipo de dados sem causar regressão de desempenho. - [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
-
[SPARK-45399] Adicionadas opções XML usando
newOption. - Atualizações de segurança do sistema operacional.
-
[SPARK-44823] Atualizado
Tempo de execução do Databricks 14.0
Consulte Databricks Runtime 14.0 (EoS).
- 8 de fevereiro de 2024
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-45957] Evite gerar plano de execução para comandos não executáveis.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de efetuar o commit na agregação de fluxo em modo de saída.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [FAÍSCA-45498] Seguimento: Ignorar a conclusão de tarefas de fases antigas.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables(). - [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
-
[SPARK-46677] Corrigir
dataframe["*"]a resolução. - [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffledo plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=truequando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchemaestá definido como verdadeiro. - [SPARK-46250] Estabilizar test_parity_listener.
- [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
-
[FAÍSCA-46484] Faça
resolveOperatorscom que as funções auxiliares mantenham a ID do plano. - [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
- [SPARK-46056] Corrigir o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
- [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
-
[SPARK-46261]
DataFrame.withColumnsRenameddeve manter a ordem do dicionário/mapa. - [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. -
[FAÍSCA-46337] Faça
CTESubstitutionreter oPLAN_ID_TAG. -
[SPARK-46602] Propagar
allowExistingquando a vista/a tabela não existir na criação da vista. -
[SPARK-46260]
DataFrame.withColumnsRenameddeve respeitar a ordem do dicionário. - [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- [SPARK-46255] Apoiar conversão de tipo complexo para string.
-
[SPARK-46028] Permitir que
Column.__getitem__aceite a coluna de entrada. - [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando as datas e horas não corresponderem ao formato de data e hora especificado.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfixpara corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - Ao ingerir dados CSV usando o Auto Loader ou tabelas de streaming, arquivos CSV grandes agora são dividiveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
- O conector faísca-floco de neve é atualizado para 2.12.0.
-
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. - Reverter [SPARK-45592].
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutputevalidateExprIdUniqueness. -
[FAÍSCA-45592] Corrigido o problema de precisão no AQE com
InMemoryTableScanExec. - [SPARK-45620] APIs relacionadas com Python UDF agora usam camelCase.
- [SPARK-44784] Fez com que os testes do SBT fossem herméticos.
-
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumnsparaDataframe.drop. -
[SPARK-45544] Suporte SSL integrado no
TransportContext. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
- Consultas de alimentação de dados em tabelas de streaming do Catálogo Unity e vistas materializadas foram alteradas para exibir mensagens de erro.
-
[SPARK-45545]
SparkTransportConfherda no momento daSSLOptionscriação. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptionseSparkTransportConf. -
[SPARK-45541] Adicionado
SSLFactory. -
[FAÍSCA-45430]
FramelessOffsetWindowFunctionjá não falha quandoIGNORE NULLSeoffset > rowCount. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
- [SPARK-44219] Foram adicionadas validações extras por regra para reescritas de otimização.
-
[SPARK-45543] Corrigido um problema em que
InferWindowGroupLimitum erro era gerado se as outras funções de janela não tivessem a mesma estrutura de janela que as funções semelhantes ao rank. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager. -
[FAÍSCA-45396] Adicionada entrada de documentação para o módulo
PySpark.ml.connect, e adicionadaEvaluatora__all__emml.connect. -
[FAÍSCA-45256] Corrigido um problema em que
DurationWriterfalhava ao escrever mais valores do que a capacidade inicial. -
[SPARK-45279] Anexada
plan_ida todos os planos lógicos. - [SPARK-45250] Adicionado suporte para perfil de recursos de tarefas a nível de estágio para clusters YARN quando a alocação dinâmica está desligada.
- [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
-
[FAÍSCA-45419] Evite reutilizar
rocksdb sstficheiros numa instância diferenterocksdbao remover as entradas do mapa de versões de ficheiros de versões maiores. -
[SPARK-45386] Corrigido um problema em que
StorageLevel.NONEretornava incorretamente 0. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- A
array_insertfunção é baseada em 1 para índices positivos e negativos, enquanto antes, era baseada em 0 para índices negativos. Ele agora insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsertcomotrue. - O Azure Databricks deixa de ignorar ficheiros corrompidos quando uma inferência de esquema CSV com o Auto Loader está ativada
ignoreCorruptFiles. -
[SPARK-45227] Corrigido um problema sutil de segurança da thread com
CoarseGrainedExecutorBackend. -
[SPARK-44658]
ShuffleStatus.getMapStatusdeve retornarNoneem vez deSome(null). -
[SPARK-44910]
Encoders.beannão suporta superclasses com argumentos de tipo genéricos. - [SPARK-45346] A inferência do esquema Parquet respeita as bandeiras de sensibilidade a maiúsculas e minúsculas ao mesclar esquemas.
- Reverter [SPARK-42946].
- [SPARK-42205] Atualizado o protocolo JSON para remover o registo de acumuláveis nos eventos de início de tarefa ou de estágio.
-
[SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE. -
[SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles/ignoreMissingFilesaHadoopRDDeNewHadoopRDD. - [FAÍSCA-44909] Ignore a execução do servidor de streaming de log do distribuidor da tocha quando ele não estiver disponível.
-
[SPARK-45084]
StateOperatorProgressagora usa o número de partição de embaralhamento preciso. - [SPARK-45371] Corrigidos problemas de sombreamento no cliente Spark Connect Scala.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas em vez de usar o wrapper. -
[FAÍSCA-44840] Alterar
array_insert()para baseado em 1 para índices negativos. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
-
[FAÍSCA-45078] A
ArrayInsertfunção agora faz uma conversão explícita quando o tipo de elemento não é igual ao tipo de componente derivado. - [FAÍSCA-45339] O PySpark agora regista erros de nova tentativa.
-
[SPARK-45057] Evite adquirir bloqueio de leitura quando
keepReadLockfor falso. -
[SPARK-44908] Corrigida a funcionalidade do parâmetro do validador cruzado
foldCol. - Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 13.1
Consulte Databricks Runtime 13.1 (EoS).
- 29 de novembro de 2023
- Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates. - [SPARK-43802] Corrigido um problema em que o codegen para as expressões unhex e unbase64 falhava.
-
[SPARK-43718] Corrigida a anulabilidade para chaves em
USINGjunções. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que sublinhados protegidos em operações
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Consultas de feed de dados em tabelas de Unity Catalog Streaming e vistas materializadas foram alteradas para exibir mensagens de erro.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. -
[FAÍSCA-45430]
FramelessOffsetWindowFunctionjá não falha quandoIGNORE NULLSeoffset > rowCount. -
[FAÍSCA-45543] Corrigida uma questão onde
InferWindowGroupLimitcausava um conflito caso as outras funções de janela não utilizassem o mesmo quadro de janela que as funções tipo classificação. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
Protobuf. - Reverter [SPARK-42946].
- [SPARK-45346] A inferência de esquema Parquet agora respeita o sinalizador de sensibilidade a maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
-
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- Não ignora mais arquivos corrompidos quando
ignoreCorruptFilesé ativado durante a inferência de esquema CSV com o Auto Loader. -
[SPARK-44658]
ShuffleStatus.getMapStatusretornaNoneem vez deSome(null). -
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas em vez de usar o wrapper. - [SPARK-42205] Atualizado o protocolo JSON para remover o registo de acumuláveis nos eventos de início de tarefa ou de estágio.
- Atualizações de segurança do sistema operacional.
- 12 de setembro de 2023
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
ColumnVectorvalor de configuração. -
SPARK-44878 Desativou o limite estrito para
RocksDBo gerente de escrita para evitar a exceção de inserção ao completar o cache. - Correções diversas.
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
- 30 de agosto de 2023
- [SPARK-44871] Corrigido o comportamento de `percentile_disc`.
- [SPARK-44714] Aliviar a restrição da resolução de LCA em relação a consultas.
-
[FAÍSCA-44245]
PySpark.sql.dataframe sample()Os testes de documentação são agora apenas ilustrativos. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThreadde ser inicializada. - Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString. -
[FAÍSCA-44643] Corrigido
Row.__repr__quando a linha está vazia. - [SPARK-44504] A tarefa de manutenção agora limpa os provedores carregados em caso de erro de interrupção.
-
[FAÍSCA-44479] Conversão fixa
protobufde um tipo struct vazio. - Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunnercomo valor da primeira coluna. - Correções diversas.
-
[SPARK-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAPquando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManagerjá não atualiza ofileIndexdesnecessariamente. -
[SPARK-44448] Corrigido bug de resultados errados de
DenseRankLimitIteratoreInferWindowGroupLimit. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- Reverter [SPARK-42323].
-
[FAÍSCA-41848] Corrigido o problema de excesso de agendamento de tarefas com
TaskResourceProfile. -
[SPARK-44136] Corrigido um problema em que
StateManagerseria materializado num executor em vez de no driver emFlatMapGroupsWithStateExec. -
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstancecausava erros de interpretação. - Atualizações de segurança do sistema operacional.
- 27 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct. - O analisador JSON no
failOnUnknownFieldsmodo agora descarta o registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- O
PubSubRecordcampo de atributos é armazenado como JSON em vez da cadeia de caracteres de um mapa Scala para serialização e desserialização mais diretas. - O
EXPLAIN EXTENDEDcomando agora retorna a elegibilidade do cache de resultados da consulta. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONEApache Iceberg e Parquet. - [SPARK-43032] Correção de bug no Python SQM.
- [SPARK-43404]Omita a reutilização do ficheiro sst para a mesma versão do estado RocksDB para evitar o erro de desajuste de ID.
- [SPARK-43340] Gerir o campo de stack trace ausente nos registos de eventos.
-
[SPARK-43527] Corrigido
catalog.listCatalogsno PySpark. -
[FAÍSCA-43541] Propagar todas as
Projecttags na resolução de expressões e colunas ausentes. -
[SPARK-43300]
NonFateSharingCachewrapper para Guava Cache. -
[SPARK-43378] Encerrar corretamente os objetos de stream no
deserializeFromChunkedBuffer. -
[SPARK-42852] Reverter
NamedLambdaVariablealterações relacionadas deEquivalentExpressions. -
[SPARK-43779]
ParseToDateagora carregaEvalModeno thread principal. -
[SPARK-43413] Corrigir a
INnullabilidade da subconsultaListQuery. - [FAÍSCA-43889] Adicione uma verificação ao nome da coluna para filtrar nomes de coluna propensos a erros.
-
[SPARK-43043] Melhorou o desempenho de
MapOutputTracker.updateMapOutput - [FAÍSCA-43522] Corrigido criando nome de coluna struct com índice de matriz.
- [FAÍSCA-43457] Melhorar o agente de utilizador com as versões do sistema operativo, Python e Spark.
-
[SPARK-43286] Modo CBC atualizado
aes_encryptde forma a gerar IVs aleatórios. -
[FAÍSCA-42851] Guarda
EquivalentExpressions.addExpr()comsupportedExpression(). - Reverter [SPARK-43183].
- Atualizações de segurança do sistema operacional.
- Fotonizado
Tempo de execução do Databricks 12.2 LTS
Ver Databricks Runtime 12.2 LTS (EoS).
26 de fevereiro de 2026
- Atualizações de segurança do sistema operacional.
19 de fevereiro de 2026
- Atualizações de segurança do sistema operacional.
- 27 de janeiro de 2026
- Atualizações de segurança do sistema operacional.
- 9 de janeiro de 2026
- Atualizações de segurança do sistema operacional.
- 9 de dezembro de 2025
- Atualizações de segurança do sistema operacional.
- 18 de novembro de 2025
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2025
- Bibliotecas R atualizadas:
- seta de 10.0.0 para 21.0.0
- Atualizações de segurança do sistema operacional.
- Bibliotecas R atualizadas:
- Outubro 21, 2025
- Python atualizado de 2.7.18 para 2.7.18.1
- Atualizações de segurança do sistema operacional.
- Outubro 7, 2025
- Atualizações de segurança do sistema operacional.
- Setembro 24, 2025
- Atualizações de segurança do sistema operacional.
- 9 de setembro de 2025
- Atualizações de segurança do sistema operacional.
- 26 de agosto de 2025
- Atualizações de segurança do sistema operacional.
- 14 de agosto de 2025
- Atualizações de segurança do sistema operacional.
- Julho 29, 2025
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Atualizações de segurança do sistema operacional.
- 1 de julho de 2025
- Atualizações de segurança do sistema operacional.
- Junho 17, 2025
- Atualizações de segurança do sistema operacional.
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- certifi de 2019.11.28, 2021.10.8 a 2021.10.8
- chardet da versão 3.0.4, depois 4.0.0 até 4.0.0
- IDNA de 2.8, 3.3 para 3.3
- Pedidos de 2.22.0, 2.27.1 a 2.27.1
- seis de 1.14.0, 1.16.0 a 1.16.0
- urllib3 de 1.25.8, 1.26.9 para 1.26.9
- Foi adicionado o pip 21.2.4
- Adicionado setuptools 61.2.0
- Adicionado tomli 1.2.2
- Foi adicionado wcwidth 0.2.5
- Roda adicionada 0.37.0
- Distribuição 1.4.0 removida
- Removido distro-info 0.23+ubuntu1.1
- Removido python-apt 2.0.1+ubuntu0.20.4.1
- Bibliotecas Java atualizadas:
- software.amazon.cryptools.AmazonCorrettoCryptoProvider de 1.6.1-linux-x86_64 para 1.6.1
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- [SPARK-42655][SQL] Erro de referência de coluna ambígua incorreta
- Atualizações de segurança do sistema operacional.
- 22 de abril de 2025
- [Mudança de Comportamento] As operações de vácuo realizam agora verificações do protocolo Writer semelhantes a outras operações, prevenindo limpezas inesperadas em tabelas com funcionalidades mais recentes quando executadas a partir de versões antigas e incompatíveis do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Atualizações de segurança do sistema operacional.
11 de março de 2025
- Atualizações de segurança do sistema operacional.
10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
26 de novembro de 2024
- Correções de bugs diversos.
10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- Correções de bugs diversos.
17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
29 de agosto de 2024
- Correções de bugs diversos.
14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 12.2 LTS é atualizada de 3.9.5 para 3.9.19.
Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
- [SPARK-42741][SQL] Não desembrulhe conversões na comparação binária quando o literal for nulo
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
17 de junho de 2024
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Correções de bugs diversos.
21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- Atualizações de segurança do sistema operacional.
9 de maio de 2024
- [SPARK-44251][SQL] Definir corretamente a nulabilidade da chave de junção coalescida numa junção exterior completa com o uso de USING join
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-48018][SS] Corrigir groupId nulo causando um erro de parâmetro ausente quando ocorre KafkaException.couldNotReadOffsetRange.
- Atualizações de segurança do sistema operacional.
25 de abril de 2024
- Atualizações de segurança do sistema operacional.
11 de abril de 2024
- Atualizações de segurança do sistema operacional.
1 de abril de 2024
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
Março 14, 2024
- [SPARK-47176][SQL] Criar uma função auxiliar ResolveAllExpressionsUpWithPruning
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [SPARK-47125][SQL] Devolve null se o Univocity nunca desencadear a análise
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- Atualizações de segurança do sistema operacional.
29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- [SPARK-45582][SS] Certifique-se de que a instância de armazenamento não seja utilizada após efetuar o commit na agregação de streaming no modo de saída.
- Atualizações de segurança do sistema operacional.
Fevereiro 13, 2024
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2024
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-39440] Adicionar uma configuração para desativar a cronologia de eventos.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
-
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchemaestá definido como verdadeiro. - [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
- [SPARK-43067] Corrija a localização do ficheiro de recursos da classe de erro no conector Kafka.
- [SPARK-46249] Requer bloqueio de instância para adquirir métricas do RocksDB a fim de evitar condições de corrida com operações em segundo plano.
-
[SPARK-46602] Propagar
allowExistingquando a vista/a tabela não existir na criação da vista. - [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. - [SPARK-42852] Reverter as alterações relacionadas a NamedLambdaVariable em EquivalentExpressions.
14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- [FAÍSCA-44582] Ignore o iterador no SMJ se ele foi limpo.
- [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfixpara corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[FAÍSCA-42205] Removidos os acumuláveis de registo nos eventos de início de
StageeTask. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USINGjunções. -
[SPARK-45544] Suporte SSL integrado no
TransportContext. - [FAÍSCA-43973] A interface de utilizador do streaming estruturado agora exibe corretamente as consultas falhadas.
-
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. -
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
-
[SPARK-45545]
SparkTransportConfherda no momento daSSLOptionscriação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptionseSparkTransportConf. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. -
[SPARK-45541] Adicionado
SSLFactory. -
[FAÍSCA-45430]
FramelessOffsetWindowFunctionjá não falha quandoIGNORE NULLSeoffset > rowCount. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
- Atualizações de segurança do sistema operacional.
24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- [SPARK-42553] Assegure-se de que exista pelo menos uma unidade de tempo após o intervalo.
- [FAÍSCA-45346] A inferência do esquema Parquet respeita o indicador sensível a maiúsculas ao mesclar esquemas.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgresspara usar um número de partição de embaralhamento preciso e adequado.
12 de setembro de 2023
- [SPARK-44873] Adicionado suporte para colunas aninhadas no cliente Hive.
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
ColumnVectorvalor de configuração. -
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
Protobuf. - Correções diversas.
30 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThreadde ser inicializada. -
[SPARK-44871][11.3-13.0] Comportamento corrigido
percentile_disc. - [SPARK-44714] Flexibilização da restrição da resolução de LCA em consultas.
- Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
15 de agosto de 2023
- [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunnercomo valor da primeira coluna. - Atualizações de segurança do sistema operacional.
29 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAPquando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManagerjá não atualiza ofileIndexdesnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
24 de julho de 2023
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstancecausava erros de interpretação. -
[SPARK-44136] Corrigido um problema em que
StateManagerseria materializado num executor em vez de no driver emFlatMapGroupsWithStateExec. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDateagora carregaEvalModeno thread principal. -
[SPARK-43156][SPARK-43098] Teste de erro de contagem de subconsulta escalar prolongada com
decorrelateInnerQuerydesativado. - Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONEIceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do ficheiro sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0] Corrigida a anulabilidade da
INsubconsultaListQuery. - [FAÍSCA-43522] Corrigido criando nome de coluna struct com índice de matriz.
-
[FAÍSCA-43541] Propagar todas as
Projecttags na resolução de expressões e colunas ausentes. -
[SPARK-43527] Corrigido
catalog.listCatalogsno PySpark. - [SPARK-43123] Os metadados de campo interno não vazam mais para catálogos.
- [SPARK-43340] Corrigido o campo de rastreio de pilha ausente nos registos de eventos.
-
[SPARK-42444]
DataFrame.dropagora lida com colunas duplicadas corretamente. -
[FAÍSCA-42937]
PlanSubqueriesagora defineInSubqueryExec#shouldBroadcastcomo verdadeiro. -
[SPARK-43286] Modo CBC atualizado
aes_encryptde forma a gerar IVs aleatórios. -
[SPARK-43378] Encerrar corretamente os objetos de stream no
deserializeFromChunkedBuffer.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que têm tipos de dados diferentes seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer,ShorteBytese um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a leitura de tipos de intervalo como tipos de carimbo de data ou hora para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimalcom menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] Expõe host e token do cliente Spark connect.
-
[SPARK-43293]
__qualified_access_onlyé desconsiderado em colunas normais. -
[SPARK-43098] Corrigido o erro de corretude
COUNTquando a subconsulta escalar é utilizada com uma cláusula de agrupamento. -
[SPARK-43085] Suporte para atribuição de colunas
DEFAULTpara nomes de tabelas com várias partes. -
[SPARK-43190]
ListQuery.childOutputé agora consistente com a produção secundária. - [FAÍSCA-43192] Removida a validação do conjunto de caracteres do agente do usuário.
- Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que tivessem diferentes tipos de dados seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - O Auto Loader agora lê corretamente e já não lida com os tipos
Integer,ShorteBytese um desses tipos de dados for fornecido. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatada estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem salvas mesmo que fossem legíveis. -
[FAÍSCA-43009] Parametrizado
sql()comAnyconstantes - [FAÍSCA-42406] Encerrar campos recursivos do Protobuf soltando o campo
-
[SPARK-43038] Suporte o modo CBC por
aes_encrypt()/aes_decrypt() -
[SPARK-42971] Alterar para imprimir
workdirseappDirsfor nulo quando o trabalhador processar o eventoWorkDirCleanup - [SPARK-43018] Corrigir bug para comandos INSERT com literais de data e hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte formatos de fonte de dados herdados no comando
SYNC. - Corrige um problema no comportamento do %autoreload em notebooks fora de qualquer repositório.
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928] Faz
resolvePersistentFunctionsincronizado. - [SPARK-42936] Corrige o problema de LCan quando a cláusula pode ser resolvida diretamente pelo seu agregado filho.
-
[SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptIdquando uma tarefa é iniciada após o cancelamento da fase. - Atualizações de segurança do sistema operacional.
- Suporte formatos de fonte de dados herdados no comando
29 de março de 2023
O Databricks SQL agora oferece suporte à especificação de valores padrão para colunas de tabelas Delta Lake, no momento da criação da tabela ou depois. Os comandos subsequentes
INSERT,UPDATE,DELETEeMERGEpodem referir-se ao valor padrão de qualquer coluna usando a palavra-chave explícitaDEFAULT. Além disso, se qualquerINSERTatribuição tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão da coluna correspondente serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28zO Auto Loader agora inicia pelo menos uma limpeza de log síncrona do RocksDB para fluxos de
Trigger.AvailableNowpara garantir que o checkpoint seja regularmente limpo para fluxos do Auto Loader que operam rapidamente. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras.Agora pode modificar uma tabela Delta para adicionar suporte às funcionalidades da tabela usando
DeltaTable.addFeatureSupport(feature_name).[SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para a aquisição do armazenamento de estado RocksDB no Processamento de Stream Estruturado.
[SPARK-42521] Adicionar NULLs para inserções com listas especificadas pelo utilizador de menos colunas do que a tabela de destino
[SPARK-42702][SPARK-42623] Suporte para consulta parametrizada em subconsulta e CTE
[SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado ao parar o HDFSStateStoreProvider
[SPARK-42403] JsonProtocol deve manipular cadeias de caracteres JSON nulas
8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi melhorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'em vez de'delta.feature.featureName'='enabled'. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'ainda funciona e continuará a funcionar. - A partir desta versão, é possível criar/substituir uma tabela por uma propriedade
delta.ignoreProtocolDefaultsde tabela adicional para ignorar as configurações do Spark relacionadas ao protocolo, que incluem versões padrão de leitor e gravador e recursos de tabela suportados por padrão. - [FAÍSCA-42070] Alterar o valor padrão do argumento da função Máscara de -1 para NULL
- [SPARK-41793] Resultado incorreto para quadros de janelas definidos por uma cláusula de intervalo em decimais significativos.
- [SPARK-42484] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42516] Sempre capture a configuração de fuso horário da sessão ao criar visualizações
- [SPARK-42635] Corrigir a expressão TimestampAdd.
- [SPARK-42622] Desativada a substituição em valores
- [SPARK-42534] Corrigir cláusula Limit do DB2Dialect
- [SPARK-42121] Adicionar funções embutidas de valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve gerar um erro em overflow de inteiros de tamanho reduzido/pequeno/significativo.
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.3 LTS
Consulte Databricks Runtime 11.3 LTS (EoS).
- 4 de novembro de 2025
- Atualizações de segurança do sistema operacional.
- Outubro 21, 2025
- Python atualizado de 2.7.18 para 2.7.18.1
- Atualizações de segurança do sistema operacional.
- Outubro 7, 2025
- Atualizações de segurança do sistema operacional.
- Setembro 24, 2025
- Atualizações de segurança do sistema operacional.
- 9 de setembro de 2025
- Atualizações de segurança do sistema operacional.
- 26 de agosto de 2025
- Atualizações de segurança do sistema operacional.
- 14 de agosto de 2025
- Atualizações de segurança do sistema operacional.
- Julho 29, 2025
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Atualizações de segurança do sistema operacional.
- 1 de julho de 2025
- Atualizações de segurança do sistema operacional.
- Junho 17, 2025
- Atualizações de segurança do sistema operacional.
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- certifi de 2019.11.28, 2021.10.8 a 2021.10.8
- chardet da versão 3.0.4, depois 4.0.0 até 4.0.0
- IDNA de 2.8, 3.2 para 3.2
- Pedidos de 2.22.0, 2.26.0 a 2.26.0
- seis de 1.14.0, 1.16.0 a 1.16.0
- urllib3 de 1.25.8, 1.26.7 a 1.26.7
- Foi adicionado o pip 21.2.4
- Adicionado setuptools 58.0.4
- Adicionado tomli 2.0.1
- Foi adicionado wcwidth 0.2.5
- Roda adicionada 0.37.0
- Distribuição 1.4.0 removida
- Removido distro-info 0.23+ubuntu1.1
- Removido python-apt 2.0.1+ubuntu0.20.4.1
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- [SPARK-42655][SQL] Erro de referência de coluna ambígua incorreta
- Atualizações de segurança do sistema operacional.
- 22 de abril de 2025
- [Mudança de Comportamento] As operações de vácuo realizam agora verificações do protocolo Writer semelhantes a outras operações, prevenindo limpezas inesperadas em tabelas com funcionalidades mais recentes quando executadas a partir de versões antigas e incompatíveis do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Atualizações de segurança do sistema operacional.
- 5 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um caso extremo em que um
CLONEincremental pode voltar a copiar arquivos que já foram copiados de uma tabela de origem para uma tabela de destino. Ver Clonar uma tabela no Azure Databricks.
- Esta versão inclui uma correção para um caso extremo em que um
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Correções de bugs diversos.
- 10 de outubro de 2024
- Correções de bugs diversos.
- 25 de setembro de 2024
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Correções de bugs diversos.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 11.3 LTS é atualizada de 3.9.5 para 3.9.19.
- Julho 11, 2024
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-48018][SS] Corrigir groupId nulo causando um erro de parâmetro ausente quando ocorre KafkaException.couldNotReadOffsetRange.
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir corretamente a nulabilidade da chave de junção coalescida numa junção exterior completa com o uso de USING join
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47125][SQL] Devolve null se o Univocity nunca desencadear a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- [SPARK-45582][SS] Certifique-se de que a instância de armazenamento não seja utilizada após efetuar o commit na agregação de streaming no modo de saída.
- Fevereiro 13, 2024
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
-
[SPARK-46602] Propagar
allowExistingquando a vista/a tabela não existir na criação da vista. -
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchemaestá definido como verdadeiro. -
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. - [SPARK-39440] Adicionar uma configuração para desativar a cronologia de eventos.
- [SPARK-46249] Requer bloqueio de instância para adquirir métricas do RocksDB a fim de evitar condições de corrida com operações em segundo plano.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Corrigido um problema em que sublinhados protegidos em operações
getColumnsoriginadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - [FAÍSCA-43973] A interface de utilizador do streaming estruturado agora exibe corretamente as consultas falhadas.
-
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. -
[SPARK-45544] Suporte SSL integrado no
TransportContext. -
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USINGjunções. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que sublinhados protegidos em operações
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-42205] Foram removidos os acumuláveis de log nos eventos de início de Stage e Task.
-
[SPARK-45545]
SparkTransportConfherda no momento daSSLOptionscriação. - Reverter [SPARK-33861].
-
[SPARK-45541] Adicionado
SSLFactory. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. -
[FAÍSCA-45430]
FramelessOffsetWindowFunctionjá não falha quandoIGNORE NULLSeoffset > rowCount. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptionseSparkTransportConf. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgresspara usar um número de partição de embaralhamento preciso e adequado. - [SPARK-45346] A inferência de esquema Parquet agora respeita o sinalizador de sensibilidade a maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThreadde ser inicializada. -
[SPARK-44871][11.3-13.0] Comportamento corrigido
percentile_disc. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString. - [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunnercomo valor da primeira coluna. - Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAPquando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManagerjá não atualiza ofileIndexdesnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- [FAÍSCA-44136] Corrigido um problema em que o StateManager pode ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDateagora carregaEvalModeno thread principal. - [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Teste de bug na contagem de subconsulta escalar ampliada com
decorrelateInnerQuerydesativado. - [SPARK-43098] Corrigir bug de precisão COUNT quando a subconsulta escalar tem uma cláusula GROUP BY
- Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONEIceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404]Omita a reutilização do ficheiro sst para a mesma versão do estado RocksDB para evitar o erro de desajuste de ID.
-
[SPARK-43527] Corrigido
catalog.listCatalogsno PySpark. -
[SPARK-43413][11.3-13.0] Corrigida a anulabilidade da
INsubconsultaListQuery. - [SPARK-43340] Corrigido o campo de rastreio de pilha ausente nos registos de eventos.
- O analisador JSON no
Tempo de execução do Databricks 10.4 LTS
Consulte Databricks Runtime 10.4 LTS (EoS).
- 12 de agosto de 2025
- Atualizações de segurança do sistema operacional.
- Julho 15, 2025
- Atualizações de segurança do sistema operacional.
1 de julho de 2025
- Atualizações de segurança do sistema operacional.
Junho 17, 2025
- Atualizações de segurança do sistema operacional.
- 3 de junho de 2025
- Bibliotecas Python atualizadas:
- certifi de 2019.11.28, 2020.12.5 a 2020.12.5
- chardet da versão 3.0.4, depois 4.0.0 até 4.0.0
- IDNA de 2.10, 2.8 a 2.10
- Pedidos de 2.22.0, 2.25.1 a 2.25.1
- seis de 1.14.0, 1.15.0 a 1.15.0
- urllib3 de 1.25.11, 1.25.8 a 1.25.11
- Adicionado pip, o gestor de pacotes de software, versão 21.0.1
- Adicionado setuptools 52.0.0
- Foi adicionado wcwidth 0.2.5
- Adicionada roda 0.36.2
- Distribuição 1.4.0 removida
- Removido distro-info 0.23+ubuntu1.1
- Removido python-apt 2.0.1+ubuntu0.20.4.1
- Atualizações de segurança do sistema operacional.
- Bibliotecas Python atualizadas:
- Maio 20, 2025
- Atualizações de segurança do sistema operacional.
- 22 de abril de 2025
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Atualizações de segurança do sistema operacional.
- 11 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um caso extremo em que um
CLONEincremental pode voltar a copiar arquivos que já foram copiados de uma tabela de origem para uma tabela de destino. Ver Clonar uma tabela no Azure Databricks. - Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um caso extremo em que um
10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
22 de outubro de 2024
- Atualizações de segurança do sistema operacional.
10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
25 de setembro de 2024
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
29 de agosto de 2024
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
14 de agosto de 2024
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- Atualizações de segurança do sistema operacional.
Julho 11, 2024
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
17 de junho de 2024
- Atualizações de segurança do sistema operacional.
21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- Atualizações de segurança do sistema operacional.
9 de maio de 2024
- [SPARK-48018][SS] Corrigir groupId nulo causando um erro de parâmetro ausente quando ocorre KafkaException.couldNotReadOffsetRange.
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir corretamente a nulabilidade da chave de junção coalescida numa junção exterior completa com o uso de USING join
- Atualizações de segurança do sistema operacional.
25 de abril de 2024
- Atualizações de segurança do sistema operacional.
11 de abril de 2024
- Atualizações de segurança do sistema operacional.
1 de abril de 2024
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- Atualizações de segurança do sistema operacional.
Março 14, 2024
- [SPARK-47125][SQL] Devolve null se o Univocity nunca desencadear a análise
- Atualizações de segurança do sistema operacional.
29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- [SPARK-45582][SS] Certifique-se de que a instância de armazenamento não seja utilizada após efetuar o commit na agregação de streaming no modo de saída.
- Atualizações de segurança do sistema operacional.
Fevereiro 13, 2024
- [SPARK-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform. - [SPARK-39440] Adicionar uma configuração para desativar a cronologia de eventos.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
29 de novembro de 2023
-
[SPARK-45544] Suporte SSL integrado no
TransportContext. -
[SPARK-45859] Tornou objetos UDF em
ml.functionsavaliados de forma preguiçosa. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USINGjunções. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite. - [SPARK-42205] Foram removidos os acumuláveis de log nos eventos de início de Stage e Task.
-
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates. - Atualizações de segurança do sistema operacional.
-
[SPARK-45544] Suporte SSL integrado no
14 de novembro de 2023
-
[SPARK-45541] Adicionado
SSLFactory. -
[SPARK-45545]
SparkTransportConfherda no momento daSSLOptionscriação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptionseSparkTransportConf. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
-
[SPARK-45541] Adicionado
24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
13 de outubro de 2023
-
[SPARK-45084]
StateOperatorProgresspara usar um número de partição de embaralhamento preciso e adequado. -
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
-
[SPARK-45084]
10 de setembro de 2023
- Correções diversas.
30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThreadde ser inicializada. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
15 de agosto de 2023
- [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- [SPARK-43973] A interface de utilizador do Streaming Estruturado agora exibe corretamente as consultas com erro.
- Atualizações de segurança do sistema operacional.
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43098] Corrigir bug de precisão COUNT quando a subconsulta escalar tem uma cláusula GROUP BY
- [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[FAÍSCA-43156][FAÍSCA-43098] Teste de contagem de subconsulta escalar estendida com
decorrelateInnerQuerydesativado. - Atualizações de segurança do sistema operacional.
2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Corrigido um problema na análise de dados recuperados pelo JSON para evitar
UnknownFieldException. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do ficheiro sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413] Corrigida a nulabilidade da subconsulta
IN. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
-
[SPARK-41520] Dividir
AND_ORo padrão da árvore para separarANDeOR. -
[SPARK-43190]
ListQuery.childOutputé agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
-
[SPARK-42928] Tornar
resolvePersistentFunctionsincronizado. - Atualizações de segurança do sistema operacional.
-
[SPARK-42928] Tornar
11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42937]
PlanSubqueriesagora defineInSubqueryExec#shouldBroadcastcomo verdadeiro. - [SPARK-42967] Corrige o SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
29 de março de 2023
- [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado ao parar o HDFSStateStoreProvider
- [SPARK-42635] Corrigir o ...
- Atualizações de segurança do sistema operacional.
14 de Março de 2023
- [FAÍSCA-41162] Corrigir anti-join e semi-join para auto-união com agregações
- [SPARK-33206] Corrigir cálculo do peso da cache do índice de shuffle para ficheiros de índice pequenos
-
[FAÍSCA-42484] Melhorou a mensagem de erro
UnsafeRowUtils - Correções diversas.
28 de fevereiro de 2023
- Suporte para coluna gerada no formato de data aaaa-MM-dd. Essa alteração oferece suporte à remoção de partição para aaaa-MM-dd como um date_format nas colunas geradas.
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Suporte para coluna gerada no formato de data aaaa-MM-dd. Essa alteração oferece suporte à remoção de partição para aaaa-MM-dd como um date_format nas colunas geradas.
- Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
18 de janeiro de 2023
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space. - [SPARK-38277] Limpar lote de gravação após confirmar o estado de commit do armazenamento do RocksDB
- [SPARK-41199] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas
- [FAÍSCA-41198] Corrigir métricas em consultas de streaming com origem de streaming CTE e DSv1
- [SPARK-41339] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [FAÍSCA-41732] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace, quando definido comotrue, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue. -
csvignoretrailingwhitespace, quando definido comotrue, remove o espaço em branco à direita dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue.
-
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypesnão estava definido ou definido comofalse) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResultscomotrue. O sinalizador é desativado por padrão para preservar o comportamento original. -
[SPARK-40292] Corrigir nomes de colunas na
arrays_zipfunção quando arrays são referenciadas em estruturas aninhadas - Atualizações de segurança do sistema operacional.
1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwritesestava ativado - [SPARK-40697] Adicionar preenchimento de caracteres na leitura para cobrir ficheiros de dados externos
- [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
-
[SPARK-40468] Corrigir a otimização de colunas no ficheiro CSV quando
_corrupt_recordestiver selecionado. - Atualizações de segurança do sistema operacional.
-
[SPARK-40468] Corrigir a otimização de colunas no ficheiro CSV quando
22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled,true) para reativar a listagem interna do Auto Loader no ADLS. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40213] Suporta conversão de valor ASCII para caracteres latino-1
- [FAÍSCA-40380] Corrija a dobragem constante de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-38404] Melhorar a resolução de CTE quando uma CTE aninhada referencia uma CTE externa
- [SPARK-40089] Corrigir a classificação para alguns tipos decimais
- [FAÍSCA-39887] RemoveRedundantAliases deve manter aliases que garantem que a saída dos nós de projeção seja única
- Os usuários podem definir spark.conf.set(
6 de setembro de 2022
- [FAÍSCA-40235] Utilize o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40218] Conjuntos de agrupamento devem preservar as colunas de agrupamento
- [SPARK-39976] ArrayIntersect deve manipular null na expressão à esquerda corretamente
-
[SPARK-40053] Adicionar
assumeaos casos de cancelamento dinâmico que exigem um ambiente de execução em Python - [FAÍSCA-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não podem ser carregados depois de salvá-lo
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para casos de entradas vazias
24 de agosto de 2022
- [SPARK-39983] Não armazenar em cache relações de transmissão não serializadas no driver
- [FAÍSCA-39775] Desabilitar a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643] quando charVarcharAsString é true, na consulta de predicado de tipo de dados char deve ignorar a regra de rpadding.
- Atualizações de segurança do sistema operacional.
9 de agosto de 2022
- [FAÍSCA-39847] Corrigir a condição de concorrência em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo 'CORRECTED'
- Atualizações de segurança do sistema operacional.
27 de julho de 2022
- [SPARK-39625] Adicionar Dataset.as(StructType)
- [SPARK-39689]Suporte para 2 caracteres na fonte de dados CSV
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser seguro para threads
- [SPARK-39570] A tabela inline deve permitir expressões com apelidos
- [SPARK-39702] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel partilhado
- [SPARK-39575] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [FAÍSCA-39476] Desative a otimização do Unwrap cast ao transmitir de Long para Float/Double ou de Integer para Float
- [SPARK-38868] Não propague exceções do predicado do filtro ao otimizar junções externas
- Atualizações de segurança do sistema operacional.
20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [FAÍSCA-39355] Uma única coluna usa aspas para construir UnresolvedAttribute
- [SPARK-39548] Comando CreateView com uma consulta que contém uma cláusula de janela causa um problema de definição de janela não encontrada.
- [SPARK-39419] Corrija ArraySort para lançar uma exceção quando o comparador retornar nulo
- Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão asterisco do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
15 de junho de 2022
- [SPARK-39283] Corrigir impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] O Spark não deve verificar nomes de campos ao ler ficheiros
- [FAÍSCA-34096] Melhorar o desempenho do nth_value ao ignorar nulos numa janela de desvio
-
[FAÍSCA-36718] Corrigir a
isExtractOnlyverificação no CollapseProject
2 de junho de 2022
- [SPARK-39093] Evitar erro de compilação de codegen ao dividir intervalos de ano-mês ou tempo de dia por um inteiro
- [SPARK-38990] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
18 de maio de 2022
- Corrige uma possível fuga de memória incorporada no Auto Loader.
- [FAÍSCA-38918] A poda de colunas aninhadas deve filtrar atributos que não são relevantes para a relação em questão
- [SPARK-37593] Reduzir o tamanho da página padrão em LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084] Corrija df.rdd.isEmpty() utilizando TaskContext para interromper o iterador após a conclusão da tarefa
- [SPARK-32268] Adicionar ColumnPruning em injectBloomFilter
- [FAÍSCA-38974] Filtrar funções registadas com um determinado nome de base de dados na lista de funções
- [SPARK-38931] Crie o diretório DFS raiz para RocksDBFileManager com um número desconhecido de chaves no 1º checkpoint
- Atualizações de segurança do sistema operacional.
19 de abril de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas de caderno que não funcionavam em trabalhos de streaming em lote.
- [SPARK-38616] Monitorize o texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
6 de abril de 2022
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
-
timestampadd()edateadd(): Adicione uma duração de tempo numa unidade especificada a uma expressão timestamp. -
timestampdiff()edatediff(): Calcule a diferença de tempo entre carimbos de data e hora em uma unidade especificada.
-
- Parquet-MR foi atualizado para 1.12.2
- Suporte melhorado para esquemas abrangentes em ficheiros Parquet
- [SPARK-38631] Usa implementação baseada em Java para descompactar em Utils.unpack
-
[SPARK-38509][SPARK-38481] Selecionar três
timestmapadd/diffalterações. - [FAÍSCA-38523] Corrigir a referência à coluna de registo corrompido no CSV
-
[FAÍSCA-38237] Permitir
ClusteredDistributionexigir chaves de agrupamento completas - [SPARK-38437] Serialização tolerante de data e hora a partir da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Proibir agregados distintos em subconsultas laterais com predicados não suportados.
- Atualizações de segurança do sistema operacional.
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
Tempo de execução do Databricks 13.0
Consulte Databricks Runtime 13.0 (EoS).
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- [SPARK-42553][SQL] Certifique-se de que haja pelo menos uma unidade de tempo após o intervalo.
-
[FAÍSCA-45178] Reversão para executar um único lote para
Trigger.AvailableNowcom fontes não suportadas, em vez de usar invólucro. -
[FAÍSCA-44658][CORE]
ShuffleStatus.getMapStatusretornaNoneem vez deSome(null). -
[FAÍSCA-42205][CORE] Remova o registro de Acumuláveis nos eventos de início de Tarefa/Estágio em
JsonProtocol. - Atualizações de segurança do sistema operacional.
- 12 de setembro de 2023
-
[SPARK-44485][SQL] Otimize
TreeNode.generateTreeString. - [SPARK-44718][SQL] Definir o valor padrão da configuração do modo de memória para corresponder ao valor de configuração.
- Correções de bugs diversos.
-
[SPARK-44485][SQL] Otimize
- 30 de agosto de 2023
-
[FAÍSCA-44818][Backport] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThreadde ser inicializada. - [SPARK-44714] Aliviar a restrição da resolução de LCA em relação a consultas.
-
[SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()doctests agora são apenas ilustrativos. -
[SPARK-44871][11.3-13.0][SQL] Comportamento corrigido
percentile_disc. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818][Backport] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
-
[SPARK-44643][SQL][PYTHON] Corrigir
Row.__repr__quando a linha estiver vazia. - [FAÍSCA-44504][Backport] A tarefa de manutenção limpa os fornecedores carregados em caso de erro de paragem.
-
[SPARK-44479][CONECTAR][PYTHON] Corrigida a conversão
protobufde um tipo struct vazio. -
[FAÍSCA-44464][SS] Corrigido
applyInPandasWithStatePythonRunnerpara produzir linhas que tenhamNullcomo valor da primeira coluna. - Correções de bugs diversos.
-
[SPARK-44643][SQL][PYTHON] Corrigir
- 29 de julho de 2023
- Corrigido um bug em que
dbutils.fs.ls()retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAPquando chamado para um caminho de localização de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerido. -
[SPARK-44199]
CacheManagerjá não atualiza ofileIndexdesnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um bug em que
- 24 de julho de 2023
-
[SPARK-44337][PROTOBUF] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstancecausava erros de análise. -
[SPARK-44136] [SS] Corrigido um problema em que
StateManagerseria concretizado num executor em vez de num driver emFlatMapGroupsWithStateExec. - Reverter [SPARK-42323][SQL] Atribua nome a
_LEGACY_ERROR_TEMP_2332. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337][PROTOBUF] Corrigido um problema em que qualquer campo definido como
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
-
[SPARK-43779][SQL]
ParseToDateagora carregaEvalModena thread principal. - [c0][SPARK-42937][/c0][SQL] deve definir como verdadeiro
- Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONEo Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[FAÍSCA-43300][CORE]
NonFateSharingCachewrapper para Guava Cache. -
[SPARK-43378][CORE] Feche corretamente os objetos de fluxo no
deserializeFromChunkedBuffer. - [SPARK-16484][SQL] Use registradores de 8 bits para representar DataSketches.
- [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN. -
[FAÍSCA-43043][CORE] Desempenho melhorado
MapOutputTracker.updateMapOutput. - [SPARK-16484][SQL] Adicionado suporte para DataSketches HllSketch.
- [SPARK-43123][SQL] Os metadados internos de campos já não são expostos aos catálogos.
-
[SPARK-42851][SQL] Guarda
EquivalentExpressions.addExpr()comsupportedExpression(). -
[SPARK-43336][SQL] A conversão entre
TimestampeTimestampNTZrequer fuso horário. -
[SPARK-43286][SQL] Modo CBC atualizado
aes_encryptpara gerar IVs aleatórios. -
[SPARK-42852][SQL] Alterações relacionadas de
NamedLambdaVariablerevertidas deEquivalentExpressions. -
[SPARK-43541][SQL] Propagar todas as
Projecttags na resolução de expressões e colunas ausentes. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogsno PySpark. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 31 de maio de 2023
- O suporte de escrita otimizada padrão para tabelas Delta registadas no Unity Catalog foi alargado para abranger
CTASinstruções eINSERToperações para tabelas particionadas. Esse comportamento se alinha aos padrões em armazéns SQL. Ver Escritas otimizadas.
- O suporte de escrita otimizada padrão para tabelas Delta registadas no Unity Catalog foi alargado para abranger
- 17 de maio de 2023
- Corrigida uma regressão onde
_metadata.file_pathe_metadata.file_nameretornaria cadeias de caracteres formatadas incorretamente. Por exemplo, agora um caminho com espaços é representado comos3://test-bucket/some%20directory/some%20data.csvem vez des3://test-bucket/some directory/some data.csv. - As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
-
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que têm tipos de dados diferentes seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção.
- Se um arquivo Avro fosse lido apenas com a
- Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimalcom menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] [CONECTAR] Expõe host e token do cliente de conexão Spark.
-
[SPARK-43293][SQL]
__qualified_access_onlyé ignorado em colunas normais. -
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNTquando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43085][SQL] Suporte para atribuição de colunas
DEFAULTpara nomes de tabelas multipartes. -
[SPARK-43190][SQL]
ListQuery.childOutputestá agora consistente com a produção secundária. - [SPARK-43192] [CONNECT] Removida a validação da codificação do user agent.
- Corrigida uma regressão onde
- 25 de abril de 2023
- Você pode modificar uma tabela Delta para adicionar suporte a uma funcionalidade da tabela Delta usando
DeltaTable.addFeatureSupport(feature_name). - O
SYNCcomando agora suporta formatos de fonte de dados herdados. - Corrigido um bug em que usar o formatador Python antes de executar quaisquer outros comandos em um notebook Python podia resultar na ausência do caminho do notebook
sys.path. - O Azure Databricks agora dá suporte à especificação de valores padrão para colunas de tabelas Delta.
INSERT,UPDATE,DELETE, eMERGEos comandos podem se referir ao valor padrão de uma coluna usando a palavra-chave explícitaDEFAULT. ParaINSERTcomandos com uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes são substituídos pelas colunas restantes (ouNULLse nenhum padrão for especificado).
- Você pode modificar uma tabela Delta para adicionar suporte a uma funcionalidade da tabela Delta usando
- Corrige um bug em que o terminal web não podia ser usado para aceder a arquivos em
/Workspacepara alguns usuários.- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que tivessem diferentes tipos de dados seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming.
- [SPARK-39221][SQL] Faça com que as informações confidenciais sejam editadas corretamente para o separador de tarefa/etapa do servidor Thrift.
-
[SPARK-42971][CORE] Alterar para imprimir
workdirseappDirsfor nulo quando o trabalhador processar o eventoWorkDirCleanup. - [SPARK-42936][SQL] Corrigir o bug da LCA quando a cláusula having puder ser resolvida diretamente pelo seu agregado filho.
-
[SPARK-43018][SQL] Corrija o bug para
INSERTcomandos com literais de carimbo de data/hora. - Revert [SPARK-42754][SQL][UI] Corrija o problema de compatibilidade com versões anteriores na execução do SQL aninhado.
- Reverter [SPARK-41498] Propagar metadados através do Union.
-
[SPARK-43038][SQL] Suporte o modo CBC por
aes_encrypt()/aes_decrypt(). -
[SPARK-42928][SQL] Torne
resolvePersistentFunctionsincronizado. -
[SPARK-42521][SQL] Adicione
NULLvalores paraINSERTcom listas de colunas especificadas pelo utilizador que contêm menos colunas do que a tabela de destino. -
[SPARK-41391][SQL] O nome da coluna de saída de
groupBy.agg(count_distinct)era incorreto. -
[SPARK-42548][SQL] Adicionar
ReferenceAllColumnspara ignorar reescrita de atributos. - [SPARK-42423][SQL] Adicionar coluna de metadados para início e comprimento do bloco de arquivo.
-
[SPARK-42796][SQL] Suporte para o acesso a colunas em
TimestampNTZ. - [SPARK-42266][PYTHON] Remova o diretório pai ao executar o shell.py quando o IPython é usado.
-
[SPARK-43011][SQL]
array_insertdeve falhar com o índice 0. -
[SPARK-41874][CONECTAR][PYTHON] Suporte
SameSemanticsno Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Suporte para consultas parametrizadas em subconsultas e CTE.
-
[SPARK-42967][CORE] Corrigir
SparkListenerTaskStart.stageAttemptIdquando uma tarefa é iniciada depois que o estágio é cancelado. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
Tempo de execução do Databricks 12.1
Consulte Databricks Runtime 12.1 (EoS).
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779][SQL]
ParseToDateagora carregaEvalModena thread principal. - [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
- Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONEo Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN. - [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-42444][PYTHON]
DataFrame.dropagora lida corretamente com colunas duplicadas. -
[SPARK-43541][SQL] Propagar todas as
Projecttags na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[SPARK-42937][SQL]
PlanSubqueriesagora defineInSubqueryExec#shouldBroadcastcomo true. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogsno PySpark. -
[SPARK-43378][CORE] Feche corretamente os objetos de fluxo no
deserializeFromChunkedBuffer.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que têm tipos de dados diferentes seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimalcom menor precisão.
- Impede a leitura de tipos
-
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNTquando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43190][SQL]
ListQuery.childOutputestá agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que tivessem diferentes tipos de dados seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[SPARK-43009][SQL] Parametrizado
sql()comAnyconstantes. -
[SPARK-42971][CORE] Alterar para imprimir
workdirseappDirsfor nulo quando o trabalhador processar o eventoWorkDirCleanup. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento do %autoreload em cadernos que estão fora de repositórios.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928][SQL] Torna
resolvePersistentFunctionsincronizado. -
[SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptIdquando uma tarefa é iniciada após a etapa ter sido cancelada. - Atualizações de segurança do sistema operacional.
29 de março de 2023
- O Auto Loader agora aciona pelo menos uma limpeza síncrona de log RocksDB para
Trigger.AvailableNowfluxos para garantir que o ponto de verificação possa ser limpo regularmente para fluxos do Auto Loader de execução rápida. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras. - Agora pode modificar uma tabela Delta para adicionar suporte às funcionalidades da tabela usando
DeltaTable.addFeatureSupport(feature_name). - [SPARK-42702][SPARK-42623][SQL] Suporte a consulta parametrizada em subconsulta e CTE
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- O Auto Loader agora aciona pelo menos uma limpeza síncrona de log RocksDB para
14 de Março de 2023
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'em vez de'delta.feature.featureName'='enabled'. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'ainda funciona e continuará a funcionar. - [SPARK-42622][CORE] Desativar substituição em valores
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- Atualizações de segurança do sistema operacional.
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
24 de fevereiro de 2023
- Agora você pode usar um conjunto unificado de opções (
host,port,database,user,password) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queporté opcional e usa o número de porta padrão para cada fonte de dados, se não for fornecido.
Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );- [FAÍSCA-41989][PYTHON] Evite quebrar a configuração de registro de pyspark.pandas
- [SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
-
[FAÍSCA-41990][SQL] Use
FieldReference.columnem vez deapplyna conversão de filtro de V1 para V2 - Reverter [SPARK-41848][CORE] Corrigir excesso de agendamento de tarefas com TaskResourceProfile
- [FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
- Atualizações de segurança do sistema operacional.
- Agora você pode usar um conjunto unificado de opções (
16 de fevereiro de 2023
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-36173][CORE] Suporte para obter o número de CPUs no TaskContext
- [SPARK-41848][CORE] Corrigindo tarefa programada em excesso com TaskResourceProfile
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
31 de janeiro de 2023
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- [FAÍSCA-41581][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corrigir o teste do Kafka para verificar partições perdidas e contabilizar operações lentas do Kafka
- [SPARK-41580][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Suporte a SQL parametrizado por
sql() - [FAÍSCA-41579][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Seguimento] Corrigir uma regressão de sincronização do código-fonte para ConvertToLocalRelation
- [SPARK-41576][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2054
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 12.0
Consulte Databricks Runtime 12.0 (EoS).
15 de junho de 2023
- Fotonizado
approx_count_distinct. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
-
[SPARK-43779][SQL]
ParseToDateagora carregaEvalModena thread principal. - Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFieldsmodo descarta um registro noDROPMALFORMEDmodo e falha diretamente noFAILFASTmodo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONEo Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
-
[SPARK-42444][PYTHON]
DataFrame.dropagora lida corretamente com colunas duplicadas. - [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogsno PySpark. - [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-43541][SQL] Propagar todas as
Projecttags na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[FAÍSCA-42937][SQL]
PlanSubqueriesdefinaInSubqueryExec#shouldBroadcastcomo verdadeiro.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que têm tipos de dados diferentes seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimalcom menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] [CONECTAR] Expõe host e token do cliente de conexão Spark.
-
[SPARK-41520][SQL] Dividir
AND_ORpadrão de árvore para separarANDeOR. -
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNTquando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43190][SQL]
ListQuery.childOutputestá agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que tivessem diferentes tipos de dados seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[FAÍSCA-42971][CORE] Alterar para imprimir
workdirseappDirsfor nulo quando o trabalhador manipularWorkDirCleanupevento - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando
SYNC. - Corrige um bug no comportamento do %autoreload em cadernos que estão fora de um repositório.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928][SQL] Torna
resolvePersistentFunctionsincronizado. -
[SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptIdquando uma tarefa é iniciada após a etapa ter sido cancelada. - Atualizações de segurança do sistema operacional.
- Suporte a formatos de fonte de dados herdados no comando
29 de março de 2023
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- Correções de bugs diversos.
14 de Março de 2023
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-42622][CORE] Desativar substituição em valores
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- Atualizações de segurança do sistema operacional.
24 de fevereiro de 2023
Opções de conexão padronizadas para federação de consultas
Agora você pode usar um conjunto unificado de opções (
host,port,database,user,password) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queporté opcional e usará o número de porta padrão para cada fonte de dados, se não for fornecido.Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );Reverter [SPARK-41848][CORE] Corrigir excesso de agendamento de tarefas com TaskResourceProfile
[FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
[FAÍSCA-41990][SQL] Use
FieldReference.columnem vez deapplyna conversão de filtro de V1 para V2[SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Suporte para obter o número de CPUs no TaskContext
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
- [SPARK-41848][CORE] Corrigindo tarefa programada em excesso com TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
25 de janeiro de 2023
- [SPARK-41660][SQL] Propagar colunas de metadados somente se forem usadas
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- [SPARK-41669][SQL] Redução antecipada em canCollapseExpressions
- Atualizações de segurança do sistema operacional.
18 de janeiro de 2023
-
REFRESH FUNCTIONO comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Este recurso é ativado por padrão e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enableddefinido comofalse. - Em clusters de ACLs de tabela herdada, a criação de funções que fazem referência a classes JVM agora requer o
MODIFY_CLASSPATHprivilégio. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Esse recurso é habilitado por padrão e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - O streaming estruturado do Spark agora funciona com format("deltasharing") em uma tabela de compartilhamento delta como fonte.
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- [SPARK-41733][SQL][SS] Aplicar poda baseada em padrões de árvore para a regra ResolveWindowTime
- [FAÍSCA-39591][SS] Acompanhamento assíncrono do progresso
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [FAÍSCA-41261][PYTHON][SS] Corrija o problema de applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- Atualizações de segurança do sistema operacional.
-
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Corrigida uma regressão que fazia com que os trabalhos do Azure Databricks persistissem depois de não conseguirem se conectar ao metastore durante a inicialização do cluster.
-
[SPARK-41520][SQL] Dividir
AND_ORpadrão de árvore para separarANDeOR. -
[SPARK-43190][SQL]
ListQuery.childOutputestá agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFieldsopção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumnscolunas que tivessem diferentes tipos de dados seriam lidas comonullem vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumnopção. - Auto Loader agora lê corretamente e não resgata mais
Integer,Short,Bytetipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[SPARK-42937][SQL]
PlanSubqueriesagora defineInSubqueryExec#shouldBroadcastcomo true. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento do %autoreload em cadernos que estão fora de um repositório.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Tornar resolvePersistentFunction sincronizado.
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento da fase.
29 de março de 2023
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- Atualizações de segurança do sistema operacional.
14 de Março de 2023
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- Correções de bugs diversos.
28 de fevereiro de 2023
Opções de conexão padronizadas para federação de consultas
Agora você pode usar um conjunto unificado de opções (
host,port,database,user,password) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queporté opcional e usa o número de porta padrão para cada fonte de dados, se não for fornecido.Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );[FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
[FAÍSCA-41989][PYTHON] Evite quebrar a configuração de registro de pyspark.pandas
[SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
[SPARK-41360][CORE] Evite o re-registro do BlockManager se o executor foi perdido
[FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
[FAÍSCA-41990][SQL] Use
FieldReference.columnem vez deapplyna conversão de filtro de V1 para V2Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
-
[SPARK-40382][SQL] Agrupar expressões agregadas distintas por elementos semanticamente equivalentes em
RewriteDistinctAggregates - Atualizações de segurança do sistema operacional.
25 de janeiro de 2023
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- [SPARK-41660][SQL] Propagar colunas de metadados somente se forem usadas
- [SPARK-41669][SQL] Redução antecipada em canCollapseExpressions
- Correções de bugs diversos.
18 de janeiro de 2023
-
REFRESH FUNCTIONO comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Este recurso é ativado por padrão e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enableddefinido comofalse. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Esse recurso é habilitado por padrão e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [FAÍSCA-39591][SS] Acompanhamento assíncrono do progresso
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [FAÍSCA-41261][PYTHON][SS] Corrija o problema de applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace, quando definido comotrue, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue. -
csvignoretrailingwhitespace, quando definido comotrue, remove o espaço em branco à direita dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypesnão estava definido ou definido comofalse) e o JSON continha objetos aninhados. - Atualize
snowflake-jdbca dependência para a versão 3.13.22. - Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
-
[SPARK-40906][SQL]
Modedeve copiar as chaves antes de inserir no Map - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
15 de novembro de 2022
- ACLs de tabela e clusters compartilhados de UC agora permitem o método Dataset.toJSON de python.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para aderir ao comportamento melhorado definido
spark.sql.json.enablePartialResultscomotrue. O sinalizador é desativado por padrão para preservar o comportamento original - [SPARK-40903][SQL] Impedir a reordenação da adição decimal para a canonização se o tipo de dado for alterado
- [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas utilizando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- Atualizações de segurança do sistema operacional.
1 de novembro de 2022
- O Streaming estruturado no Unity Catalog agora suporta a atualização de tokens de acesso temporários. As cargas de trabalho de streaming executadas com clusters de todos os fins ou trabalhos do Unity Catalog não falham mais após a expiração inicial do token.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - Corrigido um problema em que a execução
MERGEe o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwritesestava ativado. - Apache commons-text atualizado para 1.10.0.
- [FAÍSCA-38881][DSTREAMS][KINESIS][PYSPARK] Adicionado suporte para o CloudWatch MetricsLevel Config
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Corrige o NPE em applyInPandasWithState quando o esquema de entrada tiver coluna(s) "não nulas"
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.2
Consulte Databricks Runtime 11.2 (EoS).
- 28 de fevereiro de 2023
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
- [SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- 18 de janeiro de 2023
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace, quando definido comotrue, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue. -
csvignoretrailingwhitespace, quando definido comotrue, remove o espaço em branco à direita dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypesnão estava definido ou definido comofalse) e o JSON continha objetos aninhados. -
[SPARK-40906][SQL]
Modedeve copiar as chaves antes de inserir no Map - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResultscomotrue. O sinalizador é desativado por padrão para preservar o comportamento original - [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas utilizando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- Atualizações de segurança do sistema operacional.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
- 1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - Corrigido um problema em que a execução
MERGEe o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwritesestava ativado - [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 19 de outubro de 2022
- Corrigido um problema com o uso de COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para o Databricks Runtime 10.4 e 9.1 na atualização de manutenção anterior.
- [FAÍSCA-40315][SQL]Suporte URL encode/decode como função integrada e arrumar funções relacionadas a URLs.
-
[FAÍSCA-40156][SQL]
url_decode()deveria retornar uma classe de erro - [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata - [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- [FAÍSCA-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog é defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40389][SQL] Os números decimais não podem ser convertidos para tipos integrais se a conversão puder transbordar
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [FAÍSCA-40066][SQL][ACOMPANHAMENTO] Verifique se o ElementAt está resolvido antes de obter o seu tipo de dados
- [SPARK-40109][SQL] Nova função SQL: get()
- [SPARK-40066][SQL] Modo ANSI: sempre devolver null no acesso inválido à coluna do mapa
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-35542][ML] Correção: Bucketizer criado com várias colunas e parâmetros
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para casos de entradas vazias
- [SPARK-39912]SPARK-39828[SQL] Refinar CatalogImpl
Tempo de execução do Databricks 11.1
Consulte Databricks Runtime 11.1 (EoS).
31 de janeiro de 2023
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- Correções de bugs diversos.
18 de janeiro de 2023
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace, quando definido comotrue, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue. -
csvignoretrailingwhitespace, quando definido comotrue, remove o espaço em branco à direita dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypesnão estava definido ou definido comofalse) e o JSON continha objetos aninhados. - [SPARK-39650][SS] Corrigir esquema incorreto de valores na desduplicação de streaming com compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
15 de novembro de 2022
-
[SPARK-40646] O processamento JSON para structs, maps e arrays foi corrigido, portanto, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser interpretado corretamente em vez de resultar em nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResultscomotrue. O sinalizador é desativado por padrão para preservar o comportamento original - Atualizações de segurança do sistema operacional.
-
[SPARK-40646] O processamento JSON para structs, maps e arrays foi corrigido, portanto, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser interpretado corretamente em vez de resultar em nulos. Para optar pelo comportamento melhorado, defina
1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - Corrigido um problema em que a execução
MERGEe o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwritesestava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
18 de outubro de 2022
- Corrigido um problema com o uso de COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para o Databricks Runtime 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata - [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- [FAÍSCA-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog é defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
6 de setembro de 2022
- Atualizamos o modelo de permissão em Controles de Acesso à Tabela (ACLs de Tabela) para que somente as permissões MODIFY sejam necessárias para alterar o esquema ou as propriedades da tabela de uma tabela com ALTER TABLE. Anteriormente, essas operações exigiam que um usuário fosse o proprietário da tabela. A propriedade ainda é necessária para conceder permissões numa tabela, alterar o seu dono, mudar a sua localização ou renomeá-la. Essa alteração torna o modelo de permissão para ACLs de tabela mais consistente com o Catálogo Unity.
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assumeaos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
24 de agosto de 2022
- Compartilhamentos, provedores e destinatários agora oferecem suporte a comandos SQL para alterar proprietários, comentar, renomear
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39912][SPARK-39828][SQL] Refinar CatalogImpl
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39867][SQL] Global limit não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [FAÍSCA-39839][SQL] Lidar com caso especial de Decimal de comprimento variável nulo com deslocamento e tamanho não-zero na verificação de integridade estrutural de UnsafeRow
- [SPARK-39713][SQL] Modo ANSI: sugerir a utilização de try_element_at para erro INVALID_ARRAY_INDEX
- [FAÍSCA-39847][SS] Corrija a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
10 de agosto de 2022
- Para tabelas Delta com controle de acesso a tabelas, a evolução automática do esquema por meio de instruções DML como
INSERTeMERGEagora está disponível para todos os usuários que têmMODIFYpermissões nessas tabelas. Além disso, as permissões necessárias para executar a evolução do esquema comCOPY INTOagora são reduzidas deOWNERparaMODIFYpara manter a consistência com outros comandos. Essas alterações tornam o modelo de segurança da ACL da tabela mais consistente com o modelo de segurança do Unity Catalog, bem como com outras operações, como a substituição de uma tabela.
- [SPARK-39889] Melhorar a mensagem de erro de divisão por 0
- [SPARK-39795] [SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação simples da cadeia de caracteres ao converter decimal para cadeia de caracteres no modo ANSI
- [FAÍSCA-39625] Renomear df.as para df.to
- [SPARK-39787] [SQL] Use a classe de erro na análise do erro da função to_timestamp
- [SPARK-39625] [SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte para dois caracteres na fonte de dados CSV
- [SPARK-39579] [SQL][python][R] Tornar ListFunctions/getFunction/functionExists compatível com namespace de 3 camadas
- [SPARK-39702] [CORE] Reduza a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel partilhado
- [SPARK-39575] [AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39265] [SQL] Corrigir falha de teste quando SPARK_ANSI_SQL_MODE está ativado
- [FAÍSCA-39441] [SQL] Acelere a Desduplicação de Relações
- [SPARK-39497] [SQL] Melhorar a exceção de análise referente à ausência da coluna chave do mapa
- [SPARK-39476] [SQL] Desativar a otimização da conversão ao retirar encapsulamento ao converter de Long para Float/Double ou de Integer para Float
- [FAÍSCA-39434] [SQL] Fornecer contexto de consulta de erro de tempo de execução quando o índice de matriz estiver fora do limite
- Para tabelas Delta com controle de acesso a tabelas, a evolução automática do esquema por meio de instruções DML como
Tempo de execução do Databricks 11.0
Consulte Databricks Runtime 11.0 (EoS).
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace, quando definido comotrue, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue. -
csvignoretrailingwhitespace, quando definido comotrue, remove o espaço em branco à direita dos valores durante as gravações quandotempformatestá definido comoCSVouCSV GZIP. Os espaços em branco são mantidos quando a configuração é definida comofalse. Por predefinição, o valor étrue.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypesnão estava definido ou definido comofalse) e o JSON continha objetos aninhados. - [SPARK-39650][SS] Corrigir esquema incorreto de valores na desduplicação de streaming com compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResultscomotrue. O sinalizador é desativado por padrão para preservar o comportamento original.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
- 1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwritesestava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 18 de outubro de 2022
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para o Databricks Runtime 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata - [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
- 6 de setembro de 2022
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assumeaos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39867][SQL] Global limit não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39713][SQL] Modo ANSI: sugerir a utilização de try_element_at para erro INVALID_ARRAY_INDEX
- [FAÍSCA-39847] Corrigir a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- [SPARK-39889] Melhorar a mensagem de erro de divisão por 0
- [FAÍSCA-39795][SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação simples da cadeia de caracteres ao converter decimal para cadeia de caracteres no modo ANSI
- [SPARK-39625][SQL] Adicionar Dataset.to(StructType)
- [SPARK-39787][SQL] Use a classe de erro no erro de análise sintática da função to_timestamp
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39689] Suporte para 2 caracteres na origem de dados CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage ao usar um byteRawChannel partilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39497][SQL] Melhorar a mensagem de exceção na análise da ausência da coluna de chave de mapa
- [SPARK-39441][SQL] Acelerar a Remoção de Duplicações em Relações
- [SPARK-39476][SQL] Desativar a otimização de Unwrap cast ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39434][SQL] Fornecer contexto de consulta de erro de execução quando o índice da matriz estiver fora dos limites permitidos
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- Corrigimos um problema no TVF cloud_files_state ao ser executado em caminhos que não são DBFS.
- Desabilitado o uso do Auto Loader de APIs de nuvem nativas para listagem de diretórios no Azure.
- [SPARK-38796][SQL] Atualizar as funções to_number e try_to_number para permitir PR com números positivos.
- [SPARK-39272][SQL] Aumentar a posição inicial do contexto de consulta em 1
- [SPARK-39419][SQL] Corrigir ArraySort para lançar uma exceção quando o comparador retornar null
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- Melhoria nas mensagens de erro para uma variedade de classes de erro.
- [FAÍSCA-39451][SQL] Suporte à conversão de intervalos para tipos integrais no modo ANSI
- [FAÍSCA-39361] Não use o padrão de conversão throwable estendido do Log4J2 nas configurações de log padrão
-
[SPARK-39354][SQL] Certifique-se de mostrar
Table or view not foundmesmo que existamdataTypeMismatchErrorrelacionados comFilterao mesmo tempo - [SPARK-38675][CORE] Corrigir condição de corrida durante o desbloqueio no BlockInfoManager
- [SPARK-39392][SQL] Refinar mensagens de erro ANSI para sugestões da função try_*
- [SPARK-39214][SQL][3.3] Melhorar os erros relacionados ao CAST
- [SPARK-37939][SQL] Usar classes de erro na interpretação dos erros de propriedades
-
[FAÍSCA-39085][SQL] Mova a mensagem de erro de
INCONSISTENT_BEHAVIOR_CROSS_VERSIONpara error-classes.json - [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão 'star' do alias de subconsulta de NATURAL/USING JOIN
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 10.5
Consulte Databricks Runtime 10.5 (EoS).
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE. - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para o Databricks Runtime 10.4 e 9.1 na atualização de manutenção anterior.
- reload4j foi atualizado para 1.2.19 para corrigir vulnerabilidades.
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata - [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-38404][SQL] Melhorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- Atualizações de segurança do sistema operacional.
- 6 de setembro de 2022
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assumeaos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [FAÍSCA-37643][SQL] quando charVarcharAsString é true, para consulta de predicado de tipo de dados char deve ignorar a regra rpadding
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [FAÍSCA-39847] Corrigir a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625][SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte para 2 caracteres na origem de dados CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage ao usar um byteRawChannel partilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39476][SQL] Desativar a otimização de Unwrap cast ao converter de Long para Float/Double ou de Integer para Float
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [FAÍSCA-39355][SQL] Uma única coluna usa aspas para construir UnresolvedAttribute
- [SPARK-39548][SQL] O comando CreateView com uma consulta que inclui uma cláusula de janela enfrentou um problema de definição de janela incorreta não encontrada.
- [SPARK-39419][SQL] Corrigir ArraySort para lançar uma exceção quando o comparador retornar null
- Desabilitado o uso do Auto Loader de APIs de nuvem nativas para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão 'star' do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value a ignorar nulos sobre a janela de deslocamento
-
[FAÍSCA-36718][SQL][ACOMPANHAMENTO] Corrigir a
isExtractOnlyverificação em CollapseProject
- 2 de junho de 2022
- [FAÍSCA-39166][SQL] Proporcionar contexto de consulta para erros em aritmética binária durante o tempo de execução quando o WSCG está desativado
- [SPARK-39093][SQL] Evitar erro de compilação de codegen ao dividir intervalos de ano-mês ou dia-tempo por um valor inteiro
- [FAÍSCA-38990][SQL] Evite NullPointerException ao avaliar o formato de date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória nativa no Auto Loader.
- [SPARK-38868][SQL]Não propague exceções do predicado do filtro ao otimizar junções externas
- [SPARK-38796][SQL] Implementar as funções to_number e try_to_number SQL de acordo com uma nova especificação
- [SPARK-38918][SQL] A seleção de colunas aninhadas deve filtrar atributos que não pertencem à relação atual.
- [SPARK-38929][SQL] Melhorar mensagens de erro para falhas de conversão de tipos no ANSI
- [SPARK-38926][SQL] Tipos de saída nas mensagens de erro em estilo SQL
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador quando a tarefa for concluída
- [SPARK-32268][SQL] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38908][SQL] Fornecer contexto de consulta no erro de tempo de execução da conversão de String para Número/Data/Timestamp/Boolean
- [SPARK-39046][SQL] Retornar uma string de contexto vazia se TreeNode.origin estiver definido incorretamente
- [SPARK-38974][SQL] Filtrar funções registadas com um determinado nome de banco de dados na lista de funções
- [SPARK-38762][SQL] Fornecer contexto de consulta em erros de transbordo de decimais
- [SPARK-38931][SS] Crie diretório dfs raiz para RocksDBFileManager com número desconhecido de chaves no 1º ponto de verificação
- [SPARK-38992][CORE] Evite usar bash -c em ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Fornecer contexto de consulta em erro de chave não existente no mapa
- [SPARK-38889][SQL] Compilar filtros de coluna de valores booleanos para usar o tipo bit para a fonte de dados MSSQL
- [SPARK-38698][SQL] Fornecer contexto de consulta no erro de tempo de execução de Divide/Div/Reminder/Pmod
-
[SPARK-38823][SQL] Tornar
NewInstancenão flexível para corrigir o problema de corrupção do buffer de agregação - [SPARK-38809][SS] Implementar opção para ignorar valores nulos na implementação de hash simétrico de junções entre fluxos
- [SPARK-38676][SQL] Fornecer contexto de consulta SQL na mensagem de erro de tempo de execução de Add/Subtract/Multiply
- [SPARK-38677][PYSPARK] O MonitorThread do Python deve detetar deadlock devido ao bloqueio de E/S
- Atualizações de segurança do sistema operacional.