Referência de configuração de pool

Este artigo descreve as configurações disponíveis ao criar um pool usando a UI. Para saber como usar a CLI do Databricks para criar um pool, consulte Instance Pools CLI (legacy). Para saber como usar a API REST para criar um pool, consulte a API Instance Pools.

Tamanho da piscina

Ao criar um pool, para controlar seu tamanho, o senhor pode definir as instâncias mínimas de parada e a capacidade máxima. Não há suporte para o encerramento automático de instâncias parado no pool.

Instâncias mínimas de paradoxo

O número mínimo de instâncias que o pool mantém parado. Essas instâncias não são encerradas, independentemente das configurações de encerramento automático. Se um clusters consumir instâncias paradas do pool, o Databricks provisionará instâncias adicionais para manter o mínimo.

Capacidade máxima

O número máximo de instâncias que o pool pode provisionar. Se definido, esse valor restringe todas as instâncias (parado + usado). Se um clusters que usa o pool solicitar mais instâncias do que esse número durante autoscale, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE.

Esta configuração é opcional. A Databricks recomenda definir um valor apenas nas seguintes circunstâncias:

  • Você tem uma cota de instâncias na qual deve permanecer.

  • Você deseja proteger um conjunto de trabalho contra impacto em outro conjunto de trabalho. Por exemplo, suponha que sua cota de instância seja 100 e você tenha equipes A e B que precisam executar Job. Você pode criar pool A com no máximo 50 e pool B com no máximo 50 para que as duas equipes compartilhem a cota de 100 de forma justa.

  • Você precisa limitar os custos.

Tipos de instância

Um pool consiste em instâncias paradas mantidas prontas para novos clusters e instâncias em uso por clusters em execução. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionado ao criar um pool.

O tipo de instância de um pool não pode ser editado. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e worker . Diferentes famílias de tipos de instância se adaptam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou compute .

O Databricks sempre fornece um aviso de descontinuação de um ano antes de interromper o suporte para um tipo de instância.

Versão pré-carregada do Databricks Runtime

Você pode acelerar os lançamentos clusters selecionando uma versão do Databricks Runtime a ser carregada em instâncias parado no pool. Se um usuário selecionar esse tempo de execução ao criar clusters apoiados pelo pool, esses clusters serão iniciados ainda mais rapidamente do que poolapoiados clusters que não usam uma versão pré-carregada do Databricks Runtime.

Definir esta opção como Nenhum retarda os lançamentos clusters , pois faz com que a versão do Databricks Runtime downloads sob demanda para instâncias do Parado no pool. Quando os clusters liberam as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. As próximas operações de criação clusters que usam a mesma versão do Databricks Runtime podem se beneficiar desse comportamento de cache, mas isso não é garantido.

Tags de pool

As tags de pool permitem monitorar o custo do recurso clouds usado por vários grupos em sua organização.

O gráfico de Databricks uso faturável no account console pode agregar o uso por indivíduo tags. Os downloads dos relatórios de uso faturável CSV da mesma página também incluem default e tags personalizado. tags também se propagam para o rótulo GKE e GCE.

Por conveniência, o Databricks aplica três tags default a cada pool: Vendor, DatabricksInstancePoolId e DatabricksInstancePoolCreatorId. Você também pode adicionar tags personalizadas ao criar um pool. Você pode adicionar até 43 tags personalizadas.

Tags personalizadas

Para adicionar tags adicionais ao pool, navegue até tab tab na parte inferior da página Criar Pool . Clique no botão + Adicionar e insira o valor-chave nominal.

pool-backed clusters herda default e tags personalizado da configuração pool. Para obter informações detalhadas sobre como pool tags e Cluster Tag funcionam juntos, consulte Monitorar o uso usando tags.

Configurar a zona de disponibilidade

Você pode configurar a zona de disponibilidade do pool ao criá-lo usando a API de pools de instâncias. Este é um campo opcional. Se não for especificado, o pool usará uma zona default .

O senhor não pode atualizar a zona de disponibilidade de um pool depois que o pool é iniciado. Se quiser que seu pool use uma zona de disponibilidade diferente, o senhor deve criar um novo pool.

Para definir a zona de disponibilidade, adicione um atributo zone_id ao objeto gcp_attributes . Por exemplo:

"gcp_attributes": {
    "zone_id": "us-central1-a"
}

Observação

A zona de disponibilidade fornecida deve estar na mesma região do seu workspace do Databricks.

Configurações zonais conflitantes

Se o recurso compute que o senhor anexar a uma instância pool estiver configurado para usar uma zona de disponibilidade diferente da instância pool, as configurações do recurso compute serão ignoradas e ele herdará a configuração zonal da instância pool.

O driver do recurso compute herda a preferência zonal ou multizonal da instância do driver pool e qualquer executor herda a preferência zonal ou multizonal da instância executor pool.