Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página aborda as opções de recursos de computação do notebook. Você pode executar um notebook em um recurso de computação para todos os fins, computação sem servidor ou, para comandos SQL, pode usar um SQL Warehouse, um tipo de computação otimizada para análise de SQL. Para obter mais informações sobre tipos de computação, consulte Computação.
Computação padrão
Em workspaces habilitados para o Unity Catalog, os novos notebooks utilizam, por padrão, computação sem servidor. Se você não selecionar manualmente um recurso de computação e executar uma célula, o notebook se conectará automaticamente à computação sem servidor.
Computação de anexação automática
Nas configurações do desenvolvedor, você pode configurar notebooks para que se conectem automaticamente a um recurso de computação e iniciem uma sessão quando você interagir com o editor.
Clique no ícone de usuário no canto superior esquerdo.
Clique em Configurações.
Clique em Desenvolvedor para navegar até as configurações do desenvolvedor.
Ative Criar sessão automaticamente na interação do editor para iniciar automaticamente uma sessão de computação quando houver interação com o editor. O Databricks usa como padrão um recurso de computação com base em suas preferências (sem servidor ou SQL Warehouse) e no último recurso de computação usado.
OR
Desative essa configuração se você não quiser que o notebook se conecte automaticamente e inicie um recurso de computação.
Os recursos de assistência de código, incluindo preenchimento automático, formatação de código e depurador, exigem que o notebook seja anexado a uma sessão de computação ativa. Se o notebook não tiver iniciado uma sessão de computação, os recursos de assistência de código ficarão inativos.
Computação sem servidor para notebooks
A computação sem servidor permite que você conecte seu notebook rapidamente aos recursos de computação sob demanda.
Para anexar à computação sem servidor, clique no menu suspenso de computação no notebook e selecione Sem servidor.
Consulte Computação sem servidor para notebooks para obter mais informações.
Restauração de sessão automatizada para notebooks sem servidor
A interrupção por ociosidade da computação sem servidor pode fazer com que você perca trabalhos em progresso, como valores de variáveis Python, em execução em seus notebooks. Para evitar isso, ative a restauração de sessão automatizada para notebooks sem servidor.
- Clique em seu nome de usuário no canto superior direito do seu workspace e clique em Configurações na lista suspensa.
- Na barra lateral Configurações, selecione Desenvolvedor.
- Em Recursos Experimentais, ative a configuração Restaurar automaticamente sessões em notebooks sem servidor.
Habilitar essa configuração permite que o Databricks capture o estado de memória do notebook sem servidor antes de um encerramento por inatividade. Quando você retorna a um bloco de anotações após uma desconexão ociosa, uma faixa é exibida na parte superior da página. Clique em Reconectar para restaurar o estado de trabalho.
Quando você se reconecta, o Databricks restabelece todo o ambiente de trabalho, incluindo:
- Variáveis, funções e definições de classe do Python: O estado do Python é serializado no processo usando pickle/cloudpickle e restaurado em um REPL novo, portanto, você não precisa importar novamente ou redeclará-los.
- DataFrames do Spark, visualizações em cache e temporárias: os dados carregados, transformados ou armazenados em cache (incluindo visualizações temporárias) são preservados, portanto, você evita recarregamentos ou recomputações dispendiosas.
- Estado da sessão do Spark: as configurações no nível do Spark, exibições temporárias, modificações de catálogo e UDFs (funções definidas pelo usuário) são restauradas por meio da migração de sessão do Spark Connect, portanto, você não precisa redefini-las.
Se o ambiente tiver sido alterado de uma maneira que tornaria a desserialização insegura, por exemplo, versões incompatíveis de Python ou pacote, o instantâneo será invalidado e o notebook retornará para uma nova sessão.
Armazenamento de dados de instantâneo
Os dados do instantâneo são armazenados no armazenamento padrão do espaço de trabalho. O notebook em si armazena apenas metadados, incluindo um ponteiro com a ID do notebook, um carimbo de data/hora e informações de sessão. A carga de dados não é armazenada no notebook. Os caminhos de blob são criptografados antes de serem armazenados em atributos de notebook, e os caminhos de instantâneos são excluídos da exportação e importação do notebook para evitar a restauração do estado em um espaço de trabalho diferente.
Snapshots seguem os padrões de TTL do armazenamento em nuvem (cerca de um mês) e expiram automaticamente. Excluir um notebook também exclui seus instantâneos. Sua conta de nuvem incorre em custos de armazenamento como parte do uso padrão do armazenamento do workspace. O recurso usa a serialização de processos em Python ao invés de realizar checkpointing em nível de contêiner, o que mantém os snapshots menores e mais rápidos de serem criados.
Segurança e controle de acesso
A restauração de snapshot respeita as permissões do notebook. Restaurar o estado requer a permissão de execução (RUN) no notebook. Os metadados criptografados impedem que os visualizadores busquem diretamente blobs de instantâneos, e as verificações de permissão são aplicadas na restauração.
Limitações
Esse recurso tem limitações e não dá suporte à restauração do seguinte:
- Estados Spark com mais de 4 dias
- Estados Spark maiores que 50 MB
- Dados relacionados ao script SQL
- Identificadores de arquivo
- Bloqueios e outros primitivos de simultaneidade
- Conexões de rede
Anexar um notebook a um recurso de computação para todos os fins
Para anexar um notebook a um recurso de computação para todas as finalidades, é necessária a permissão PODE ANEXAR A no recurso de computação.
Importante
Desde que um notebook esteja anexado a um recurso de computação, qualquer usuário com a permissão CAN RUN no notebook tem permissão implícita para acessar o recurso de computação.
Para anexar um notebook a um recurso de computação, clique no seletor de computação localizado na barra de ferramentas do notebook e selecione o recurso desejado no menu suspenso.
O menu mostrará uma seleção de computação para todas as finalidades e SQL warehouses que você usou recentemente ou que estão em execução no momento.
Para selecionar de toda a computação disponível, clique em Mais.... Selecione entre a computação geral disponível ou os sql warehouses.
Você também pode criar um novo recurso de computação para todos os fins selecionando Criar novo recurso... no menu suspenso.
Importante
Um bloco de anotações anexado tem as seguintes variáveis do Apache Spark definidas.
| Classe | Nome de Variável |
|---|---|
SparkContext |
sc |
SQLContext/HiveContext |
sqlContext |
SparkSession (Spark 2.x) |
spark |
Não crie um SparkSession, SparkContextou SQLContext. Isso leva a um comportamento inconsistente.
Usar um notebook com um SQL warehouse
Quando um notebook é anexado a um SQL warehouse, você pode executar células SQL e Markdown. Executar uma célula em qualquer outro idioma (como Python ou R) lança um erro. As células SQL executadas em um SQL Warehouse aparecem no histórico de consultas do SQL Warehouse. O usuário que executou uma consulta pode exibir o perfil de consulta do notebook clicando no tempo decorrido na parte inferior da saída.
Os notebooks anexados a SQL Warehouses dão suporte a sessões do SQL Warehouse, em que você pode definir variáveis, criar visões temporárias e manter o estado em várias execuções de consulta. Você pode criar a lógica do SQL iterativamente sem precisar executar todas as instruções de uma só vez. Veja o que são sessões do SQL Warehouse?
A execução de um notebook requer um SQL warehouse pro ou sem servidor. Você deve ter acesso ao workspace e ao SQL warehouse.
Para anexar um notebook a um SQL warehouse, faça o seguinte:
Clique no seletor de computação na barra de ferramentas do notebook. O menu drop-down mostra os recursos de computação que estão em execução no momento ou que você usou recentemente. Os SQL warehouses estão marcados com um
.No menu, selecione um SQL warehouse.
Para ver todos os SQL warehouses disponíveis, selecione Mais... no menu dropdown. Uma caixa de diálogo é exibida mostrando os recursos de computação disponíveis para o notebook. Selecione SQL Warehouse, selecione o armazém que você deseja usar e clique em Anexar.
Você também pode selecionar um SQL warehouse como o recurso de computação para um notebook SQL quando criar um fluxo de trabalho ou um trabalho agendado.
Limitações do SQL Warehouse
Confira as limitações conhecidas dos notebooks do Databricks para obter mais informações.