execução your Databricks Job with serverless compute for fluxo de trabalho

Prévia

Esse recurso está em Prévia Pública.

Importante

Como o site serverless compute for fluxo de trabalho não oferece suporte ao controle do tráfego de saída, seu trabalho tem acesso total à Internet.

O serverless compute for fluxo de trabalho permite que o senhor execute seu Databricks Job sem configurar e implantar infraestrutura. Com o serverless compute, o senhor se concentra na implementação do pipeline de análise e processamento de dados e Databricks gerencia com eficiência o compute recurso, incluindo a otimização e o dimensionamento do compute para suas cargas de trabalho. autoscale e Photon são ativados automaticamente para o recurso compute que executa seu trabalho.

O serverless compute for fluxo de trabalho otimiza automática e continuamente a infraestrutura, como tipos de instância, memória e mecanismos de processamento, para garantir o melhor desempenho com base nos requisitos específicos de processamento de suas cargas de trabalho.

Databricks atualiza automaticamente a versão do Databricks Runtime para oferecer suporte a aprimoramentos e atualizações da plataforma, garantindo a estabilidade do seu trabalho no Databricks. Para ver a versão atual do Databricks Runtime usada pelo serverless compute para fluxo de trabalho, consulte serverless compute notas sobre a versão.

Como a permissão de criação do cluster não é necessária, todos os usuários do workspace podem usar o serverless compute para executar seu fluxo de trabalho.

Este artigo descreve o uso da UI Databricks Jobs para criar e executar trabalhos que usam serverless compute. O senhor também pode automatizar a criação e a execução de trabalhos que usam serverless compute com os Jobs API, Databricks ativo Bundles e o Databricks SDK para Python.

  • Para saber mais sobre como usar o Jobs API para criar e executar trabalhos que usam serverless compute, consulte Jobs na referência REST API .

  • Para saber mais sobre como usar Databricks ativo Bundles para criar e executar um trabalho que use serverless compute, consulte Desenvolver um trabalho em Databricks usando Databricks ativo Bundles.

  • Para saber mais sobre como usar o Databricks SDK para Python para criar e executar trabalhos que usam serverless compute, consulte Databricks SDK para Python.

Requisitos

  • Seu Databricks workspace deve ter o Unity Catalog ativado.

  • Como o serverless compute para fluxo de trabalho usa o modo de acesso compartilhado, suas cargas de trabalho devem suportar esse modo de acesso.

Criar um trabalho usando serverless compute

Observação

Como o serverless compute para fluxo de trabalho garante o provisionamento de recursos suficientes para a execução de suas cargas de trabalho, o senhor poderá ter um aumento no tempo de startup ao executar um trabalho Databricks que exija grandes quantidades de memória ou inclua muitas tarefas.

O compute sem servidor é compatível com os tipos de tarefa Notebook, Python script, dbt e Python wheel. Por default, serverless compute é selecionado como o tipo compute quando o senhor cria um novo trabalho e adiciona um desses tipos de tarefa compatíveis.

Criar serverless tarefa

Databricks recomenda o uso do site serverless compute para todas as tarefas de trabalho. O senhor também pode especificar diferentes tipos de compute para tarefa em um trabalho, o que pode ser necessário se um tipo de tarefa não for suportado pelo serverless compute para fluxo de trabalho.

Configurar um trabalho existente para usar o site serverless compute

O senhor pode mudar um trabalho existente para usar o site serverless compute para os tipos de tarefa suportados ao editar o trabalho. Para mudar para serverless compute, o senhor pode:

  • No painel lateral Job details, clique em swap em compute, clique em New, insira ou atualize as configurações e clique em Update.

  • Clique em Abaixo do cursor no menu suspenso de computação e selecione serverless.

Alterar a tarefa para serverless compute

Programar um Notebook usando serverless compute

Além de usar o Jobs UI para criar e programar um trabalho usando serverless compute, o senhor pode criar e executar um trabalho que use serverless compute diretamente de um notebook Databricks. Consulte Criar e gerenciar o trabalho agendado do Notebook.

Definir os parâmetros de configuração do Spark

Para automatizar a configuração de Spark em serverless compute, Databricks permite definir apenas parâmetros específicos de configuração de Spark. Para obter a lista de parâmetros permitidos, consulte Parâmetros de configuração compatíveis com o Spark.

O senhor pode definir os parâmetros de configuração do Spark somente no nível da sessão. Para fazer isso, defina-os em um Notebook e adicione o Notebook a uma tarefa incluída no mesmo Job que usa os parâmetros. Consulte Obter e definir as propriedades de configuração do Apache Spark em um Notebook.

Configurar ambientes e dependências

Para saber como instalar o biblioteca e as dependências usando serverless compute, consulte Instalar dependências do Notebook.

Configurar a otimização automática da computação sem servidor para não permitir novas tentativas

sem servidor compute para fluxo de trabalho a otimização automática otimiza automaticamente o compute usado para executar seu trabalho e tenta novamente as tarefas com falha. A otimização automática é ativada pelo site default, e o Databricks recomenda deixá-la ativada para garantir que as cargas de trabalho críticas sejam executadas com êxito pelo menos uma vez. No entanto, se o senhor tiver cargas de trabalho que devem ser executadas no máximo uma vez, por exemplo, trabalhos que não são idempotentes, poderá desativar a otimização automática ao adicionar ou editar uma tarefa:

  1. Ao lado de Retries (Repetições), clique em Add (Adicionar ) (ou ícone de edição se já existir uma política de repetição).

  2. Na caixa de diálogo Retry Policy (Política de repetição ), desmarque a opção Enable serverless auto-optimization (pode incluir tentativas adicionais).

  3. Clique em Confirmar.

  4. Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).

Monitorar o custo do trabalho que usa o site serverless compute para fluxo de trabalho

O senhor pode monitorar o custo do trabalho que usa o site serverless compute para fluxo de trabalho consultando a tabela do sistema de uso faturável. Essa tabela é atualizada para incluir atributos de usuário e carga de trabalho sobre os custos do serverless. Consulte a referência da tabela do sistema de uso faturável.

Para obter informações sobre os preços atuais e quaisquer promoções, consulte a página de preços do fluxo de trabalho.

visualizar detalhes da consulta para execução do trabalho

O senhor pode view informações detalhadas de tempo de execução para suas declarações Spark, como métricas e planos de consulta.

Para acessar os detalhes da consulta na Job UI, use os seguintes passos:

  1. Clique em fluxo de trabalho Icon fluxo de trabalho na barra lateral.

  2. Clique no nome do trabalho que o senhor deseja view.

  3. Clique na execução específica que o senhor deseja view.

  4. Clique em Timeline (Linha do tempo ) para view a execução como uma linha do tempo, dividida em tarefas individuais.

  5. Clique na seta ao lado do nome da tarefa para mostrar as instruções de consulta e seus tempos de execução.

    Uma tarefa com várias instruções de consulta e seus tempos de execução na linha do tempo view da Job UI.
  6. Clique em uma declaração para abrir o painel de detalhes da consulta. Consulte Exibir detalhes da consulta para saber mais sobre as informações disponíveis nesse painel.

Para view a história da consulta para uma tarefa:

  1. Na seção de computação do painel lateral da tarefa execução, clique em Query história.

  2. O senhor é redirecionado para o site Query History, pré-filtrado com base no ID de execução da tarefa em que estava.

Para obter informações sobre o uso do histórico de consultas, consulte Access query história for Delta Live Tables pipeline e Query história.

Limitações

Para obter uma lista de serverless compute limitações de fluxo de trabalho, consulte as limitações do serverless compute em serverless compute notas sobre a versão.