Referência de configuração de pool

Este artigo descreve as configurações disponíveis ao criar um pool usando a UI. Para saber como usar a CLI do Databricks para criar um pool, consulte Instance Pools CLI (legacy). Para saber como usar a API REST para criar um pool, consulte a API Instance Pools.

Tamanho do pool e terminação automática

Ao criar um pool, para controlar seu tamanho, você pode definir três parâmetros: mínimo de instâncias do Parado, capacidade máxima e encerramento automático da instância do Parado.

Instâncias mínimas de paradoxo

O número mínimo de instâncias que o pool mantém parado. Essas instâncias não são encerradas, independentemente das configurações de encerramento automático. Se um clusters consumir instâncias paradas do pool, o Databricks provisionará instâncias adicionais para manter o mínimo.

Capacidade máxima

O número máximo de instâncias que o pool pode provisionar. Se definido, esse valor restringe todas as instâncias (parado + usado). Se um clusters que usa o pool solicitar mais instâncias do que esse número durante autoscale, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE.

Esta configuração é opcional. A Databricks recomenda definir um valor apenas nas seguintes circunstâncias:

  • Você tem uma cota de instâncias na qual deve permanecer.

  • Você deseja proteger um conjunto de trabalho contra impacto em outro conjunto de trabalho. Por exemplo, suponha que sua cota de instância seja 100 e você tenha equipes A e B que precisam executar Job. Você pode criar pool A com no máximo 50 e pool B com no máximo 50 para que as duas equipes compartilhem a cota de 100 de forma justa.

  • Você precisa limitar os custos.

parada Encerramento automático de instância

pool tem um tempo fixo de encerramento automático de dois minutos. O encerramento automático do pool não é configurável.

Tipos de instância

Um pool consiste em instâncias paradas mantidas prontas para novos clusters e instâncias em uso por clusters em execução. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionado ao criar um pool.

O tipo de instância de um pool não pode ser editado. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e worker . Diferentes famílias de tipos de instância se adaptam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou compute .

O Databricks sempre fornece um aviso de descontinuação de um ano antes de interromper o suporte para um tipo de instância.

Versão pré-carregada do Databricks Runtime

Você pode acelerar os lançamentos clusters selecionando uma versão do Databricks Runtime a ser carregada em instâncias parado no pool. Se um usuário selecionar esse tempo de execução ao criar clusters apoiados pelo pool, esses clusters serão iniciados ainda mais rapidamente do que poolapoiados clusters que não usam uma versão pré-carregada do Databricks Runtime.

Definir esta opção como Nenhum retarda os lançamentos clusters , pois faz com que a versão do Databricks Runtime downloads sob demanda para instâncias do Parado no pool. Quando os clusters liberam as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. As próximas operações de criação clusters que usam a mesma versão do Databricks Runtime podem se beneficiar desse comportamento de cache, mas isso não é garantido.

Tags de pool

As tags de pool permitem monitorar o custo do recurso clouds usado por vários grupos em sua organização.

O gráfico de uso faturável do Databricks no console da conta pode agregar o uso por tags individuais. Os downloads de relatórios CSV de uso faturável da mesma página também incluem tags default e personalizadas. As tags também se propagam para GKE e GCE rótulo.

Por conveniência, o Databricks aplica três tags default a cada pool: Vendor, DatabricksInstancePoolId e DatabricksInstancePoolCreatorId. Você também pode adicionar tags personalizadas ao criar um pool. Você pode adicionar até 43 tags personalizadas.

Tags personalizadas

Para adicionar tags adicionais ao pool, navegue até tab tab na parte inferior da página Criar Pool . Clique no botão + Adicionar e insira o valor-chave nominal.

poolOs clusters respaldados herdam default e as tags personalizadas da configuração do pool. Para obter informações detalhadas sobre como as tags de pool e a tag de cluster funcionam juntas, consulte Monitorar o uso usando tags.

Configurar a zona de disponibilidade

Você pode configurar a zona de disponibilidade do pool ao criá-lo usando a API de pools de instâncias. Este é um campo opcional. Se não for especificado, o pool usará uma zona default .

Para definir a zona de disponibilidade, adicione um atributo zone_id ao objeto gcp_attributes . Por exemplo:

"gcp_attributes": {
    "zone_id": "us-central1-a"
}

Observação

A zona de disponibilidade fornecida deve estar na mesma região do seu workspace do Databricks.