Configurar uma VPC gerenciada pelo cliente

Importante

Este recurso requer que sua account esteja no plano Premium.

Visão geral

Em default, seu recurso Databricks workspace clássico compute, como Databricks Runtime clusters , é criado em um GKE cluster em uma rede Google cloud Virtual Private cloud (VPC). Databricks cria e configura este VPC em seu Google cloud account.

Como alternativa, você pode optar por criar seu espaço de trabalho do Databricks em uma VPC gerenciada pelo cliente existente que você cria em sua account de nuvens do Google. Você pode usar uma VPC gerenciada pelo cliente para exercer mais controle sobre suas configurações de rede para estar em conformidade com padrões específicos de segurança e governança de nuvens que sua organização possa exigir. Para configurar seu workspace para utilizar o serviço privado Connect para qualquer tipo de conexão, seu workspace deve utilizar uma VPC gerenciada pelo cliente.

Uma VPC gerenciada pelo cliente é uma boa solução se você tiver:

  • Políticas de segurança que impedem que provedores de PaaS criem VPCs em sua própria do clouds account Google.

  • Um processo de aprovação para criar um novo VPC, no qual o VPC é configurado e protegido de maneira bem documentada pelas equipes internas de segurança da informação ou engenharia de nuvem.

Os benefícios incluem:

  • Níveis de privilégio mais baixos: mantenha mais controle sobre sua própria do clouds account Google. O Databricks não precisa de tantas permissões quanto necessárias para o VPC gerenciado pelo Databricks default . As permissões necessárias limitadas podem facilitar a obtenção de aprovação para usar Databricks na pilha da sua plataforma. Consulte Nível de privilégio mais baixo para VPCs gerenciadas pelo cliente.

  • VPCs consolidadas: configure vários workspace do Databricks para compartilhar um único VPC de plano compute . Geralmente, isso é preferido para faturamento e gerenciamento de instâncias.

VPC gerenciado pelo cliente

Para usar uma VPC gerenciada pelo cliente, você deve especificá-la ao criar o espaço de trabalho do Databricks por meio do consoleaccount . Não é possível mover um workspace existente com uma VPC gerenciada pelo Databricks para sua própria VPC. Além disso, após a criação workspace , você não poderá alterar qual VPC gerenciada pelo cliente que o workspace usa.

Nível de privilégio mais baixo para VPCs gerenciadas pelo cliente

Ao criar um workspace, o Databricks cria uma account serviço e concede uma função com permissões que o Databricks precisa para gerenciar seu workspace.

Se o seu workspace usar uma VPC gerenciada pelo cliente, ele não precisará de tantas permissões. A função que o Databricks cria omite permissões como criação, atualização e exclusão de objetos como redes, roteadores e sub-redes. Para obter a lista completa, consulte Permissões necessárias para a accountde serviço do workspace.

Requisitos

Requisitos de saída

Como parte da criação de um workspace, o Databricks cria clusters do GKE na VPC. Por default, estes são clusters privados do GKE, o que significa que não há endereços IP públicos. Para clusters privados do GKE, a sub-rede e os intervalos de IP secundários fornecidos devem permitir o tráfego de saída da Internet pública, o que eles não têm permissão para fazer por default. Para ativar a saída, você pode adicionar um NAT clouds do Google ou usar uma abordagem semelhante. Veja a etapa 1: Crie e configure sua VPC.

Observação

Se você escolher clusters públicos do GKE, seu workspace não terá conectividade clusters segura porque os nós compute têm endereços IP públicos.

Requisitos de rede

A tabela a seguir lista os requisitos para recursos e atributos de rede usando a notação CIDR.

Recurso ou atributo de rede

Descrição

Intervalo válido

Intervalo de sub-rede

O intervalo workspacede IP da sua VPC para alocar clusters os nós do GKE do seu . Para recomendações e cálculos de dimensionamento, consulte Calcular tamanhos de sub-redes para um novo workspace.

O intervalo de /29 a /9.

Região de sub-rede

Região da sub-rede

A região da sub-rede deve corresponder à região do seu workspace para que o Databricks provisione clusters do GKE para execução do seu workspace.

Intervalo secundário para pods do GKE

O intervalo workspacede IP da sua VPC para alocar clusters os pods do GKE do seu .

O intervalo de /21 a /9.

Gama secundária para serviço GKE

O intervalo workspacede IP da sua VPC clusters para alocar o serviço do GKE do seu .

O intervalo de /27 a /16.

compartilhar uma VPC com vários workspace

Você pode usar uma VPC do Google clouds com vários workspace. Você deve garantir que as sub-redes de cada workspace não se sobreponham. Para usar projetos clouds do Google separados para cada workspace, separados do projeto da VPC, use o que o Google chama de VPC compartilhada. Para obter detalhes, consulte Requisitos do projeto.

Requisitos do projeto

O projeto clouds do Google associado à sua VPC pode corresponder ao projeto do workspace , mas não é obrigatório.

Se você usar uma VPC padrão, que o Google chama de VPC autônoma, o Databricks usará o mesmo projeto clouds do Google para ambos os seguintes:

  • Sua rede VPC

  • recurso que o Databricks cria para cada workspace para recurso de compute e armazenamento. O recurso compute inclui os clusters do GKE e seus nós clusters . O recurso de armazenamento inclui os dois buckets GCS para dados do sistema e DBFS raiz.

Se quiser que sua VPC tenha um projeto clouds do Google diferente do recurso de compute e armazenamento, você deverá criar o que o Google chama de VPC compartilhada em vez de uma VPC autônoma. Uma VPC compartilhada permite conectar recursos de vários projetos a uma rede VPC comum para se comunicarem entre si usando IPs internos dessa rede.

Observação

Notas terminológicas:

  • Não confunda o termo VPC compartilhada com o fato de vários workspace compartilharem uma VPC. Tanto as VPCs autônomas quanto as VPCs compartilhadas podem ser usadas com um único workspace do Databricks ou com vários workspaces.

  • Uma VPC compartilhada também é conhecida como Cross Project Network ou XPN. A documentação da Databricks usa o termo VPC compartilhada para seguir o uso mais comum na documentação do Google.

Você pode querer usar um projeto diferente para recurso de workspace por vários motivos:

  • Você deseja separar os metadados de cobrança de cada workspace para atribuição de custos e cálculos de orçamento para cada unidade de negócios que tenha seu próprio workspace do Databricks, mas uma única VPC que hospede todos os workspaces.

  • Você deseja limitar as permissões em cada projeto para cada finalidade. Por exemplo, o projeto que você usa para cada workspace compute recurso e armazenamento do não precisa de permissão para criar uma VPC.

  • Sua organização pode exigir essa abordagem para aplicativos clouds do Google.

O que o Google chama de projeto host é o projeto da sua VPC. O que o Google chama de projeto de serviço é o projeto que o Databricks usa para cada workspace compute recurso e armazenamento do .

Requisitos de função

O principal que realiza uma operação deve ter funções específicas exigidas para cada operação.

Importante

O principal que necessita de funções específicas no projeto depende de como você realiza as operações.

  • Para usar o consoleaccount , o principal é sua account de usuário administrador.

  • Para usar a API de conta, o principal é a conta de serviço principal (SA-2) para autenticação OIDC. Lembre-se de que uma account de serviço não herda automaticamente funções suas como criador. Você precisa adicionar papéis à account de serviço no projeto.

Para uma account VPC autônoma, existe um projeto clouds do Google tanto para a VPC quanto para o recurso nela implantado. Se a sua VPC for o que o Google chama de VPC compartilhada, significa que a VPC tem um projeto separado do projeto usado para cada workspace compute recurso e armazenamento do . Para uma VPC compartilhada, a entidade que realiza as operações (o usuário ou a account de serviço) deve ter funções específicas tanto no projeto da VPC quanto no projeto do workspace . Consulte a tabela a seguir para obter detalhes. Para obter detalhes sobre VPCs compartilhadas, consulte Requisitos do projeto.

Para criar um workspace com uma VPC gerenciada pelo cliente, você precisa das funções para criar uma configuração de rede e um workspace.

Operação

Funções obrigatórias no projeto do workspace se sua VPC for autônoma

Funções obrigatórias no projeto se sua VPC for uma VPC compartilhada

Execute todas as operações VPC de gerenciamento de cliente listadas abaixo

Proprietário (roles/owner) ou (b) Editor (roles/editor) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

No projeto da VPC: Visualizador (roles/viewer). No projeto do workspace: (a) Proprietário (roles/owner) ou (b) Editor (roles/editor) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

Criar configuração de rede

Visualizador (roles/viewer)

No projeto da VPC e no projeto do workspace : Visualizador (roles/viewer)

Excluir configuração de rede

Nenhuma

Nenhuma

Criar um workspacedo Databricks

(a) Visualizador (roles/viewer) ou (b) Editor (editor/owner) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

No projeto da VPC: Visualizador (roles/viewer). No projeto do workspace: (a) Proprietário (roles/owner) ou (b) Editor (roles/editor) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

Excluir um workspace

Proprietário (roles/owner) ou (b) Editor (editor/owner) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

No projeto do VPC: nenhuma função é necessária. No projeto do workspace: (a) Proprietário (roles/owner) ou (b) Editor (roles/editor) e Administrador do IAM do projeto (roles/resourcemanager.projectIamAdmin).

o passo 1: Crie e configure sua VPC

  1. Decida se deseja criar o que o Google chama de VPC independente ou VPC compartilhada. Uma VPC compartilhada permite especificar um projeto do Google clouds para a VPC e projetos separados para cada workspace. Databricks usa o workspace projeto para criar o recurso de workspacearmazenamento e compute do . Consulte Requisitos do projeto.

    • Para usar o mesmo projeto para sua VPC e para o workspace compute recurso e armazenamento de cada , crie uma VPC independente.

    • Caso contrário, crie uma VPC compartilhada.

  2. Crie uma VPC de acordo com os requisitos da rede:

    • Para criar uma VPC autônoma, use o console do Google clouds ou a Google CLI. Para usar a CLI do Google para criar uma VPC autônoma com intervalos de IP suficientes para um workspace do Databricks, execute o comando a seguir. Substitua <region> pela clouds região do Google na qual você planeja criar seu do Databricks.workspace Substitua <vpc-name> por um novo nome de VPC. Substitua <subnet-name> por um novo nome de sub-rede. Substitua <project-id> pelo ID do projeto da VPC independente.

      gcloud config set project  <project-id>
      
      gcloud compute networks create <vpc-name> --subnet-mode=custom
      
      gcloud compute networks subnets create <subnet-name> \
      --network=<vpc-name> --range=10.0.0.0/16 --region=<region> \
      --secondary-range pod=10.1.0.0/16,svc=10.2.0.0/20
      

      Neste exemplo, os intervalos de IP secundários são denominados pod e svc. Esses nomes são relevantes para configuração posterior dos passos.

    • Para criar uma VPC compartilhada:

      1. Leia os artigos do Google “Visão geral da VPC compartilhada””.

      2. Siga as instruções nos artigos do Google “Configurando clusters com VPC compartilhada”. O projeto host é o projeto da sua VPC. O projeto de serviço é o projeto que o Databricks usa para o recurso workspace compute e armazenamento de cada . Essa página fornece instruções para configurar uma VPC compartilhada, criar clusters de teste do GKE na VPC compartilhada para teste e excluir clusters de teste.

  3. Se você planeja usar clusters privados do GKE para qualquer workspace nesta VPC, que é a configuração default durante a criação workspace , os nós de recursos compute não terão endereços IP públicos.

    Observação

    Se você planeja usar clusters públicos do GKE durante a criação workspace , que cria endereços IP públicos para nós de recursos de compute , pule para a próxima etapa desta seção.

    Para oferecer suporte ao workspace com clusters privados do GKE, uma VPC deve incluir recursos que permitam o tráfego de saída (saída) da sua VPC para a Internet pública para que seu workspace possa se conectar ao plano de controle do Databricks.

    Uma abordagem simples para ativar a saída é adicionar um NAT clouds do Google. Siga as instruções nos artigos do Google “Configurar tradução de endereço de rede com clouds NAT”. Essa abordagem permite a saída para todos os destinos. Se quiser limitar a saída apenas aos destinos necessários, você poderá fazer isso agora ou mais tarde usando as instruções em Limitar a saída de rede para seu workspace usando um firewall.

    Se você usar o Google CLI para este passo, poderá fazê-lo com o seguinte comando. Substitua <vpc-name> pelo nome da sua VPC conforme especificado nas etapas anteriores. Substitua <nat-name> pelo novo nome NAT. Substitua <region> pelo nome da região que você pretende usar com seu workspace (ou vários workspace na mesma região):

    gcloud compute routers create my-router --network=<vpc-name> --region=<region>
    gcloud compute routers nats create <nat-name> \
        --router=my-router \
        --auto-allocate-nat-external-ips \
        --nat-all-subnet-ip-ranges \
        --router-region=<region>
    

    Para obter exemplos adicionais, consulte os artigos do Google “Exemplo de configuração do GKE”.

o passo 2: Confirme ou adicione funções em projetos para sua conta de usuário administrador

O principal que realiza uma operação deve ter funções específicas exigidas para cada operação. Consulte os requisitos de função para as funções necessárias para criar um workspace e outras operações relacionadas

Importante

O principal que necessita de funções específicas no projeto depende de como você realiza as operações.

  • Para usar o consoleaccount , o principal é sua account de usuário administrador.

  • Para usar a API de conta, o principal é a conta de serviço principal (SA-2) para autenticação OIDC. Lembre-se de que uma account de serviço não herda automaticamente funções suas como criador. Você precisa adicionar papéis à account de serviço no projeto.

Para confirmar ou atualizar funções do principal em um projeto:

  1. Vá para a página IAM do projeto no console clouds do Google.

  2. Se necessário, altere o projeto no seletor de projetos na parte superior da página para corresponder ao projeto da sua VPC.

  3. Se o principal já tiver funções neste projeto, você poderá encontrá-lo nesta página e revisar suas funções na coluna Função .

  4. Para adicionar novas funções a um principal neste projeto:

    1. Na parte superior da página do IAM, clique em ADICIONAR.

    2. No campo Principal , digite o endereço email da entidade a ser atualizada.

    3. Clique no campo Selecionar uma função . Escolha uma função obrigatória listada como obrigatória. Consulte Requisitos de função. Para as funções Proprietário, Visualizador e Editor, você pode encontrá-las no seletor na categoria Básico .

      Observação

      Para criar um workspace com uma VPC gerenciada pelo cliente, você precisa das funções para criar uma configuração de rede e um workspace. Adicione funções para ambas as operações agora.

    4. Para adicionar outras funções, clique em ADICIONAR OUTRA PAPEL e repita os passos anteriores em “Para confirmar ou atualizar funções para o principal em um projeto”.

    5. Clique em Salvar.

  5. Se você usar uma VPC compartilhada do Google clouds , que permite um projeto diferente do Google clouds para seu recurso workspace , como recurso compute e armazenamento, você também precisará confirmar ou adicionar funções para o principal no projeto do workspacede trabalho. Repita as etapas desta seção, mas use o projeto do workspaceem vez do projeto da VPC.

o passo 3: registre sua rede com Databricks, que cria um objeto de configuração de rede

registre sua rede (VPC) como um novo objeto de configuração de rede do Databricks.

  1. Vá para o consoleaccount .

  2. Na navegação esquerda, clique no recursoclouds recurso clouds.

  3. Clique em Adicionar configuração de rede.

  4. Em uma janela separada do navegador da web, abra o console do Google clouds .

  5. Navegue até sua VPC.

  6. Clique no nome da sua sub-rede. O console clouds do Google exibe uma página com detalhes da sub-rede e outras informações necessárias para o formulário.

  7. Copie as informações no formulário Adicionar configuração de rede .

    1. Insira um nome legível para a configuração de rede no primeiro campo.

    2. Insira os valores corretos para o nome da VPC, nome da sub-rede e região da sub-rede.

    3. Insira os intervalos de IP secundários para pods e serviços do GKE. Se você usou o exemplo anterior para criar a VPC autônoma com o comando da CLI gcloud , esses intervalos de IP secundários serão denominados pod e svc.

    4. Clique em Adicionar.

o passo 4: Crie um espaço de trabalho do Databricks que faça referência à sua configuração de rede

Importante

Para criar um workspace, você deve ter algumas permissões obrigatórias do Google em sua account, que pode ser uma accountdo Google ou uma accountde serviço. Consulte Permissões necessárias.

Para criar um espaço de trabalho usando o console account , siga as instruções em Criar um espaço de trabalho usando o console account e defina estes campos:

  • Para ID do projeto clouds do Google:

    • Se a sua VPC for uma VPC autônoma, defina-a como o ID do projeto da sua VPC. Para uma VPC autônoma, esse também é o projeto que seu workspace usa como recurso.

    • Se sua VPC for uma VPC compartilhada, defina-a como o ID do projeto para o recurso deste workspace.

  • Para Modede rede, selecione Rede gerenciada pelo cliente.

  • Para Configuração de rede, selecione sua configuração de rede no seletor.