Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve as configurações disponíveis ao criar um pool usando a interface do usuário. Para saber como usar a CLI do Databricks para criar um pool, confira Comandos de CLI do Databricks. Para saber como utilizar a API REST para criar um pool, consulte API de Pools de Instâncias.
Observação
Se sua carga de trabalho der suporte à computação sem servidor, o Databricks recomenda usar a computação sem servidor em vez de pools para aproveitar a computação escalonável e sempre ativa. Consulte Conectar-se ao computador sem servidor.
Tamanho do pool
Ao criar um pool, a fim de controlar o tamanho dele, você pode definir três parâmetros: número mínimo de instâncias ociosas, capacidade máxima e encerramento automático de instâncias ociosas.
Mínimo de Instâncias Ociosas
O número mínimo de instâncias que o pool mantém ociosas. Essas instâncias não são encerradas, independentemente das configurações do encerramento automático. Se um cluster consumir instâncias ociosas do pool, o Azure Databricks provisionará instâncias adicionais para manter o mínimo.
Capacidade Máxima
O número máximo de instâncias que o pool pode provisionar. Se definido, este valor limita todas as instâncias (ociosas + em uso). Se um cluster que estiver usando o pool solicitar mais instâncias do que esse número durante o dimensionamento automático, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE.
Essa configuração é opcional. O Azure Databricks recomenda definir um valor somente nas seguintes circunstâncias:
- Você tem uma cota de instância na qual precisa permanecer.
- Você deseja impedir que um conjunto de trabalho afete outro. Por exemplo, suponha que sua cota de instância seja 100 e você tenha as equipes A e B que precisam executar trabalhos. Você pode criar o pool A com, no máximo, 50 e o pool B com, no máximo, 50 para que as duas equipes compartilhem a cota de 100 de maneira justa.
- Você precisa limitar os custos.
Encerramento automático de instância ociosa
O tempo, em minutos, além do valor definido em Instâncias ociosas mínimas, durante o qual as instâncias podem permanecer ociosas antes de serem encerradas pelo pool.
Tipos de Instância
Um pool é composto tanto por instâncias ociosas mantidas prontas para novos clusters quanto por instâncias em uso por clusters em execução. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionadas quando um pool é criado.
Não é possível editar o tipo de instância de um pool. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e de trabalho. Diferentes famílias de tipos de instância se ajustam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou com uso intensivo de computação.
O Azure Databricks sempre fornece um aviso de descontinuação de um ano antes de deixar de dar suporte a um tipo de instância.
Observação
Se os requisitos de segurança incluírem isolamento de computação, selecione uma instância Standard_F72s_V2 como o tipo de trabalho. Esses tipos de instância representam as máquinas virtuais isoladas que consomem todo o host físico e fornecem o nível necessário de isolamento necessário para dar suporte, por exemplo, às cargas de trabalho IL5 (Nível de Impacto 5) do Departamento de Defesa dos EUA.
Versão pré-carregada do Databricks Runtime
Você pode acelerar as inicializações do cluster selecionando uma versão do Databricks Runtime a ser carregada em instâncias ociosas no pool. Se um usuário selecionar esse runtime ao criar um cluster apoiado pelo pool, esse cluster será iniciado ainda mais rapidamente do que um cluster com suporte de pool que não usa uma versão pré-carregada do Databricks Runtime.
Se você definir essa opção como Nenhum, isso retardará o início do cluster, pois faz com que a versão do Databricks Runtime seja baixada sob demanda nas instâncias ociosas do pool. Quando o cluster libera as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. A próxima operação de criação de cluster que usa a mesma versão do Databricks Runtime pode se beneficiar desse comportamento do cache, mas isso não é garantido.
Imagem pré-carregada do Docker
Há suporte a imagens Docker em pools se você usar a Instance Pools API para criar o pool. Consulte Usar os Serviços de Contêiner do Databricks com um pool de instâncias para obter mais informações.
Etiquetas do pool
As tags de pool permitem monitorar facilmente o custo dos recursos de nuvem utilizados por vários grupos em sua organização. Você pode especificar marcas como pares de chave-valor ao criar um pool e o Azure Databricks aplica essas marcas a recursos de nuvem, como VMs e volumes de disco, além de relatórios de uso da DBU.
Para sua conveniência, o Azure Databricks aplica três marcas padrão a cada pool: Vendor, DatabricksInstancePoolId e DatabricksInstancePoolCreatorId. Você também pode adicionar tags personalizadas ao criar um pool. Adicione até 41 tags personalizadas.
Etiquetas personalizadas
Para adicionar tags adicionais ao pool, navegue até a guia Abas na parte inferior da página Criar Pool. Clique no botão + Adicionar e insira o par de chave-valor.
Os clusters associados ao pool herdam tags padrão e personalizadas definidas na configuração do pool. Para obter informações detalhadas sobre como marcas de pool e marcas de cluster funcionam juntas, consulte Usar marcas para atribuir e acompanhar o uso.
Dimensionamento automático do armazenamento local
Em geral, pode ser difícil estimar quanto espaço em disco um trabalho específico usará. Para poupar você de precisar estimar quantos gigabytes de disco gerenciado devem ser anexados ao pool no momento da criação, o Azure Databricks habilita automaticamente o armazenamento local com dimensionamento automático em todos os pools do Azure Databricks.
Com o dimensionamento automático do armazenamento local, o Azure Databricks monitora a quantidade de espaço livre em disco disponível nas instâncias do pool. Se uma instância tiver pouco espaço em disco, um novo disco gerenciado será anexado automaticamente antes que ela fique sem espaço em disco. Os discos são anexados até o limite de 5 TB de espaço total em disco por máquina virtual (incluindo também o armazenamento local inicial da máquina virtual).
Os discos gerenciados anexados a uma máquina virtual só são desanexados quando a máquina virtual é retornada ao Azure. Ou seja, os discos gerenciados nunca são desanexados de uma máquina virtual, desde que ela faça parte de um pool.
Instâncias de oportunidade
Para reduzir os custos, você pode optar por usar instâncias spot marcando o botão de opção Todas do Tipo Spot.
Os clusters do pool serão inicializados com instâncias spot para todos os nós, o driver e o trabalho (em vez do driver sob demanda híbrido e dos trabalhos de instância spot para clusters que não são de pool).
Se as instâncias spot são removidas devido à indisponibilidade, as instâncias sob demanda não substituem as instâncias removidas.