Criar um workspace usando o account console

Este artigo descreve como criar e gerenciar workspace usando o console account . Como alternativa, você pode criar um espaço de trabalho usando a APIaccount ou o Terraform.

Antes de começar

  • Certifique-se de compreender todas as definições de configuração antes de criar um novo workspace. Você não pode modificar uma configuração workspace depois de criá workspace.

  • Você deve ter algumas permissões obrigatórias do Google em sua account, que pode ser uma accountdo Google ou uma accountde serviço. Consulte Permissões necessárias.

  • Certifique-se de ter cotas suficientes de recursos clouds do Google necessárias para o workspace. Solicite um aumento de cota se precisar.

  • Não modifique nem personalize os clusters do Google Kubernetes Engine (GKE) que são lançados pela Databricks para o seu workspace. Se o senhor precisar personalizar os clusters, entre em contato com a equipe da Databricks account para verificar a segurança e a capacidade de manutenção a longo prazo de tal alteração.

Crie um espaço de trabalho

Para criar um workspace:

  1. Escolha um tipo de rede para seu novo workspace:

  2. Como administrador account do Databricks, log in no consoleaccount e clique no ícone workspace .

  3. Clique em Criar workspace.

  4. No campo Nome do workspace, insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.

  5. No campo Região , selecione uma região para a rede e os clusters do seu workspace. Para obter a lista de regiões suportadas, consulte clouds e regiões do Databricks.

  6. No campo ID do projeto do Google clouds , insira o ID do projeto do Google clouds . Para saber como obter o ID do seu projeto, consulte Requisitos.

    Se você planeja usar uma VPC gerenciada pelo cliente para este espaço de trabalho:

    • Se for uma VPC autônoma, defina-a como o ID do projeto da sua VPC.

    • Se for uma VPC compartilhada, defina como o ID do projeto para o recurso deste workspace.

  7. Configuração de rede. Este passo varia de acordo com o tipo de rede do workspace . Para uma VPC gerenciada pelo cliente, clique na VPC gerenciada pelo cliente tab.

    • Opcionalmente, especifique tamanhos de sub-rede personalizados. Se você deixar esses campos em branco, o Databricks usará default.

      Importante

      Configure com precisão as sub-redes do GKE usadas pelo seu workspace do Databricks. Você não pode alterá-los após a implantação do seu workspace . Se os intervalos de endereços das suas sub-redes do Databricks forem demasiado pequenos, o workspace esgota o seu espaço IP, o que, por sua vez, faz com que o seu Job do Databricks falhe. Para determinar os tamanhos de intervalo de endereços necessários, o Databricks fornece uma calculadora de sub-rede como uma planilha do Microsoft Excel.

      Clique em Configurações avançadas para especificar intervalos de IP personalizados no formato CIDR . Os intervalos de IP para esses campos não devem se sobrepor. Todos os endereços IP devem estar inteiramente dentro dos seguintes intervalos: 10.0.0.0/8, 100.64.0.0/10, 172.16.0.0/12, 192.168.0.0/16 e 240.0.0.0/4.

      Os tamanhos desses intervalos de IP afetam o número máximo de nós do workspace.

      • No campo CIDR da sub-rede , digite o intervalo de IP no formato CIDR a ser usado para a sub-rede. Os nós dos clusters do GKE vêm desse intervalo de IP. Este também é o intervalo de IP da sub-rede onde residem os clusters do GKE. O intervalo não deve ser maior que /9 e nem menor que /29.

      • No campo Intervalo de endereços do pod , digite o intervalo de IP no formato CIDR para usar como intervalo de IP secundário para pods do GKE. O intervalo não deve ser maior que /9 e nem menor que /21.

      • No campo Intervalo de endereços de serviço , digite o intervalo de IP no formato CIDR para usar como intervalo de IP secundário para serviços do GKE. O intervalo não deve ser maior que /16 e nem menor que /27.

    • Especifique uma configuração de rede que represente sua VPC e suas sub-redes:

      • Modede rede: Defina como rede gerenciada pelo cliente.

      • Configuração de rede: Selecione o nome da sua configuração de rede.

  8. (Opcional) Configure detalhes sobre clusters privados do GKE.

    • Por default, o Databricks cria clusters privados do GKE em vez de clusters públicos do GKE. Os nós do GKE de clustersprivados não têm IP público que possa ser roteado na Internet pública. Esta opção exige que o Databricks crie um NAT adicional clouds clouds do Google. Para clusters privados, você pode definir opcionalmente um valor personalizado para o intervalo de IP do recurso mestre do GKE. Clique em Configurações avançadas e defina o intervalo de IP para o campo recurso mestre do GKE . Todos os endereços IP devem estar inteiramente dentro dos seguintes intervalos: 10.0.0.0/8, 100.64.0.0/10, 172.16.0.0/12, 192.168.0.0/16 e 240.0.0.0/4. O intervalo deve ter o tamanho /28.

    • Para usar clusters públicos do GKE, clique em Configurações avançadas e desmarque Ativar clustersprivados.

  9. (Opcional) Você pode proteger um workspace com conectividade privada e mitigar os riscos de exfiltração de dados ativando o Google Private serviço Connect (PSC) no workspace. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, a Databricks recomenda fortemente a leitura dos artigos Habilitar serviço privado Connect para seu workspace para obter requisitos e contexto.

  10. (Opcional) O senhor pode adicionar a chave do gerenciador de clientes para dois casos de uso diferentes:

    • serviço gerenciado de dados no plano de controle do Databricks (Notebook, secrets e dados de consulta do Databricks SQL ).

    • workspace (os dois buckets workspace GCS, bem como os volumes GCE Persistent Disk de um cluster ou SQL warehouse).

    Para configurar isso durante a criação do site workspace, o senhor pode usar os dois seletores para selecionar uma configuração de criptografia key já criada para cada caso de uso. O senhor pode escolher a mesma configuração se ela for compatível com os dois casos de uso. Para obter instruções detalhadas usando o console account, consulte Configurar a chave gerenciadora de clientes para criptografia.

    Alternativamente, você também pode criar uma configuração key neste fluxo de criação workspace clicando em um seletor para um caso de uso e clicando em Adicionar nova configuração key de criptografia.

  11. Clique em Salvar.

  12. Se esta for a primeira vez que você cria um workspace, uma janela pop-up do Google solicitará que você selecione sua account do Google. Conclua as instruções a seguir.

    Importante

    Se você não vir o pop-up da account do Google:

    • Se a página não mudar, você pode ter um bloqueador de pop-ups no seu navegador. Procure uma notificação sobre o bloqueio de uma janela pop-up. Configure seu bloqueador de pop-up para permitir janelas pop-up do domínio accounts.gcp.databricks.com.

    • Se você não vir a caixa de diálogo do Google, mas seu navegador agora mostrar uma lista de workspace, vá para a próxima etapa.

    1. Na caixa de diálogo Google, selecione a account Google com a qual você fez login no console account .

    2. Na próxima tela, responda à solicitação de consentimento que solicita escopos adicionais. Clique em Permitir.

      A tela de consentimento é exibida na primeira vez que você tenta criar um workspace. Para novos workspace sucessivos, o Google não mostra a tela de consentimento. Se você usar as ferramentas account do Google para revogar o consentimento concedido ao Databricks, o Google exibirá a tela de consentimento novamente.

  13. Confirme se seu workspace foi criado com sucesso. Ao lado do seu workspace na lista de workspace, clique em Abrir. Para view o status workspace e testá- workspace, consulte view o status workspace .

  14. Proteja os buckets do GCS do workspace. Consulte Proteja os buckets do GCS do workspace no seu projeto.

    Quando você cria um workspace, Databricks on Google clouds cria dois buckets do Google clouds Storage (GCS) em seu projeto clouds do Google. A Databricks recomenda fortemente que você proteja esses buckets do GCS para que eles não possam ser acessados de fora Databricks on Google Cloud.

Durante a criação workspace , o Databricks habilita algumas APIs do Google necessárias no projeto, caso ainda não estejam habilitadas. Consulte Ativação de APIs do Google em um projeto de espaço de trabalho.

Ativar APIs do Google no projeto de um workspace

Durante a criação workspace , o Databricks ativa automaticamente as seguintes APIs obrigatórias do Google no projeto clouds do Google, caso ainda não estejam habilitadas:

Estas APIs não são desativadas automaticamente durante a exclusão do workspace .

Limites de criação de espaço de trabalho

Você pode criar no máximo 200 workspace por semana no mesmo projeto clouds do Google. Se você exceder esse limite, a criação de um workspace falhará com a mensagem de erro: “A criação da personalizadas <sua-função>clouds IAM role <your-role> no projeto <your-project> foi rejeitada”.

Visualizar status do workspace

Depois de criar um workspace, você pode visualizar seu status na página Workspaces.

  • Provisionamento: em andamento. Aguarde alguns minutos e atualize a página.

  • Em execução: implantação bem-sucedida do workspace.

  • Falha: falha na implantação.

  • Banido: entre em contato com sua equipe account do Databricks.

  • Cancelamento: em processo de cancelamento.

Se o status do seu novo workspace for Failed, clique no workspace para view uma mensagem de erro detalhada. Se você não entender o erro, entre em contato com a equipe account do Databricks.

Você não pode atualizar a configuração de um workspace com falha. Você deve excluí-lo e criar um novo workspace.

Fazer login em um workspace

  1. Vá para o console da conta e clique no ícone workspace .

  2. Na linha com seu workspace, clique em Abrir.

  3. Para log in como workspace administrador , log in com account account email o endereço de e a senha do proprietário ou do administrador .

Proteja os buckets do GCS do workspace no seu projeto

Quando você cria um workspace, Databricks on Google Cloud cria dois buckets GCS do Google Cloud Storage em seu projeto GCP:

  • Um bucket do GCS armazena dados do sistema que são gerados conforme você usa vários recursos do Databricks, como a criação Notebook. Este bucket inclui revisões Notebook , detalhes de execução Job , resultados de comandos e logs do Spark.

  • Outro armazenamento de bucket do GCS é o armazenamento raiz do seu workspacepara o Databricks File System (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Crie outras fontes de dados e armazenamento para dados de produção do cliente em buckets adicionais do GCS. Opcionalmente, você pode montar os buckets GCS adicionais conforme o Databricks File System (DBFS) é montado. Consulte Conectar-se ao Google Cloud Storage.

A Databricks recomenda fortemente que você proteja esses buckets do GCS para que eles não possam ser acessados de fora Databricks on Google Cloud.

Para proteger esses intervalos do GCS:

  1. Em um navegador, acesse o console clouds do GCP.

  2. Selecione o projeto clouds do Google que hospeda seu workspace do Databricks.

  3. Acesse a página do serviço de armazenamento desse projeto.

  4. Procure os buckets para seu novo workspace. Os nomes deles são:

    • databricks-<workspace id>

    • databricks-<workspace id>-system

  5. Para cada balde:

    1. Clique no balde para view os detalhes.

    2. Clique na guia Permissões .

    3. Revise todas as entradas da lista de Membros e determine se o acesso é esperado para cada membro.

    4. Verifique a coluna Condição do IAM . Algumas permissões, como aquelas denominadas “ account de serviço do Databricks para workspace”, têm condições IAM que as restringem a determinados buckets. A IU do console clouds do Google não avalia a condição, portanto, pode mostrar funções que não conseguiriam realmente acessar o intervalo.

      Preste atenção especial às funções sem qualquer condição IAM. Considere adicionar restrições a estes:

      • Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir buckets Databricks ou permitir apenas buckets específicos.

      • Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se for necessário apenas acesso de leitura, especifique Storage Viewer em vez de Storage Admin.

        Aviso

        Não use Funções Básicas porque elas são muito amplas.

    5. Ative o registro de auditoria de acesso a dados clouds do Google. A Databricks recomenda fortemente que você habilite o log de auditoria de acesso a dados para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria de acesso a dados pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configurando logs de auditoria de acesso a dados.

Se você tiver dúvidas sobre como proteger esses buckets do GCS, entre em contato com sua equipe account do Databricks.

Próximos passos

Agora que o senhor implantou um workspace, pode começar a criar sua estratégia de dados. A Databricks recomenda os seguintes artigos: