Criar um workspace usando o account console
Este artigo descreve como criar e gerenciar o espaço de trabalho usando o console account. Como alternativa, o senhor pode criar um workspace usando o account API ou Terraform.
Antes de começar
Certifique-se de que o senhor entendeu todas as definições de configuração antes de criar um novo workspace. O senhor não pode modificar uma configuração do workspace depois de criar o workspace.
O senhor deve ter algumas permissões necessárias do Google em seu account, que pode ser um Google account ou um serviço account. Consulte Permissões necessárias.
Certifique-se de que o senhor tenha cotas suficientes de recurso do Google cloud necessárias para o workspace. Solicite um aumento de cota se o senhor precisar.
Não modifique ou personalize o Google Kubernetes Engine (GKE) cluster que é iniciado por Databricks para o seu workspace. Se o senhor precisar personalizar o cluster, entre em contato com a equipe do Databricks account para verificar a segurança e a capacidade de manutenção de longo prazo dessa alteração.
Criar um espaço de trabalho
Para criar um workspace:
Escolha um tipo de rede para seu novo workspace:
Databricks-gerenciar VPC (default): Databricks cria e gerencia o ciclo de vida do VPC. Se o senhor escolher esse tipo de rede, não há nenhum passo adicional a ser executado agora.
Customer-gerenciar VPC: Crie e especifique seu próprio customer-gerenciar VPC para seu novo Databricks workspace usar. Se o senhor escolher esse tipo de rede, execute os seguintes passos agora:
registra sua configuração de rede, que representa seu VPC e suas sub-redes.
Databricks account Comolog in account administrador do , acesse o console e clique no ícone do espaço de trabalho .
Clique em Create workspace.
No campo Nome do workspace, insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.
No campo Region (Região ), selecione uma região para sua rede workspacee clusters. Para obter a lista de regiões compatíveis, consulte Databricks clouds e regiões.
No campo ID do projeto do Google cloud , digite o ID do projeto do Google cloud. Para saber como obter o ID do projeto, consulte Requisitos.
Se o senhor planeja usar um gerenciador de clientes VPC para este workspace:
Se for uma VPC autônoma, defina isso como o ID do projeto para sua VPC.
Se for um Shared VPC, defina isso como o ID do projeto para esse recurso do workspace.
Configuração de rede. Esse passo varia de acordo com o tipo de rede do site workspace. Para gerenciar o cliente VPC, clique no link Gerenciar o cliente VPC tab.
Opcionalmente, especifique tamanhos de sub-rede personalizados. Se o senhor deixar esses campos em branco, o site Databricks usará o padrão.
Importante
Configure com precisão as sub-redes GKE usadas pelo site Databricks workspace . O senhor não pode alterá-los depois que o workspace for implantado. Se os intervalos de endereços das sub-redes do Databricks forem muito pequenos, o workspace esgotará seu espaço IP, o que, por sua vez, causará falha no trabalho do Databricks. Para determinar o tamanho do intervalo de endereços de que o senhor precisa, a Databricks fornece uma calculadora de sub-rede como uma planilha do Microsoft Excel.
Clique em Advanced configurations (Configurações avançadas ) para especificar intervalos de IP personalizados no formato CIDR. Os intervalos de IP para esses campos não devem se sobrepor. Todos os endereços IP devem estar inteiramente dentro dos seguintes intervalos:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
e240.0.0.0/4
.Os tamanhos desses intervalos de IP afetam o número máximo de nós do site workspace.
No campo Subnet CIDR, digite o intervalo de IPs no formato CIDR a ser usado para a sub-rede. Os nós do cluster GKE são provenientes desse intervalo de IP. Esse também é o intervalo de IP da sub-rede em que o cluster do GKE está localizado. O intervalo não pode ser maior que
/9
nem menor que/29
.No campo Intervalo de endereços do pod, digite o intervalo de IP no formato CIDR a ser usado como o intervalo de IP secundário para pods GKE. O intervalo não pode ser maior que
/9
nem menor que/21
.No campo de intervalo de endereços do serviço, digite o intervalo de IP no formato CIDR para usar como intervalo de IP secundário para o serviço GKE. O intervalo não pode ser maior que
/16
nem menor que/27
.
Especifique uma configuração de rede que represente sua VPC e suas sub-redes:
Rede Mode: Defina essa opção como Rede gerenciada pelo cliente.
Configuração de rede: Selecione o nome de sua configuração de rede.
(Opcional) Configure os detalhes sobre os clusters GKE privados.
Por meio do default, o Databricks cria um GKE privado cluster em vez de um GKE público cluster. Os nós GKE de um cluster privado não têm IP público que possa ser roteado na Internet pública. Essa opção requer que Databricks crie um Google cloud cloud NAT adicional. Para um cluster privado, o senhor pode, opcionalmente, definir um valor personalizado para o intervalo de IPs do recurso mestre GKE. Clique em Advanced configurations e defina o campo IP range for GKE master recurso. Todos os endereços IP devem estar inteiramente dentro dos seguintes intervalos:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
e240.0.0.0/4
. O intervalo deve ter o tamanho/28
.Para usar um cluster GKE público, clique em Advanced configurations (Configurações avançadas ) e desmarque Enable private cluster (Ativar cluster privado).
(Opcional) O senhor pode proteger o site workspace com conectividade privada e reduzir os riscos de exfiltração de dados ativando o Google Private Service Connect (PSC) no site workspace. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, o site Databricks recomenda enfaticamente a leitura dos artigos Enable Private serviço Connect for your workspace para conhecer os requisitos e o contexto.
(Opcional) O senhor pode adicionar a chave do gerenciador de clientes para dois casos de uso diferentes:
dados do serviço gerenciado no plano de controle doDatabricks (Notebook, segredos e dados de consulta do Databricks SQL ).
workspace (os dois buckets workspace GCS , bem como os volumes GCE Persistent Disk de um cluster ou SQL warehouse).
Para configurar isso durante a criação do site workspace, o senhor pode usar os dois seletores para selecionar uma configuração de criptografia key já criada para cada caso de uso. O senhor pode escolher a mesma configuração se ela for compatível com os dois casos de uso. Para obter instruções detalhadas usando o console account, consulte Configurar a chave gerenciadora de clientes para criptografia.
Como alternativa, o senhor também pode criar uma configuração key neste fluxo de criação workspace clicando em um seletor para um caso de uso e clica ndo em Add new encryption key configuration (Adicionar nova configuração de criptografia).
Clique em Salvar.
Se esta for a primeira vez que o senhor cria um workspace, uma janela pop-up do Google solicitará que o senhor selecione seu Google account. Complete as instruções a seguir.
Importante
Se o senhor não vir a janela pop-up do Google account:
Se a página não mudar, o senhor pode ter um bloqueador de pop-ups no navegador da Web. Procure uma notificação sobre o bloqueio de uma janela pop-up. Configure seu bloqueador de pop-up para permitir janelas pop-up do domínio
accounts.gcp.databricks.com
.Se o senhor não vir a caixa de diálogo do Google, mas o navegador mostrar uma lista de espaços de trabalho, prossiga para o próximo passo.
Na caixa de diálogo Google, selecione o Google account com o qual o senhor fez login no console account.
Na tela seguinte, responda à solicitação de consentimento que pede escopos adicionais. Clique em Allow.
A tela de consentimento é exibida na primeira vez que o senhor tenta criar um workspace. Para novos espaços de trabalho sucessivos, o Google não mostra a tela de consentimento. Se o senhor usar as ferramentas do Google account para revogar o consentimento concedido a Databricks, o Google exibirá a tela de consentimento novamente.
Confirme que o site workspace foi criado com sucesso. Ao lado de seu workspace na lista de espaços de trabalho, clique em Open. Para view workspace status e testar o workspace, consulte view workspace status.
Prenda as caçambas do workspace's GCS. Consulte Proteger os workspace's GCS buckets em seu projeto.
Quando o senhor cria um workspace, o Databricks on Google Cloud cria dois buckets Google Cloud Storage (GCS) no seu projeto Google cloud. Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes para que não sejam acessíveis de fora Databricks on Google Cloud.
Durante a criação do workspace, o Databricks habilita alguns itens necessários do Google APIs no projeto, caso ainda não estejam habilitados. Consulte Ativação das APIs do Google em um projeto de espaço de trabalho.
Habilitando o Google APIs em um projeto workspace
Durante a criação do site workspace, o site Databricks ativa automaticamente os seguintes itens obrigatórios do Google APIs no projeto Google cloud, caso ainda não estejam ativados:
Esses APIs não são desativados automaticamente durante a exclusão do workspace.
Limites de criação de espaço de trabalho
O senhor pode criar, no máximo, 200 espaços de trabalho por semana no mesmo projeto do Google cloud. Se o senhor exceder esse limite, a criação de um workspace falhará com a mensagem de erro: "Criação de personalizado cloud IAM role <your-role> no projeto <your-project> rejeitada."
Visualizar status do workspace
Depois de criar um workspace, você pode visualizar seu status na página Workspaces.
Provisionamento: em andamento. Aguarde alguns minutos e atualize a página.
Em execução: implantação bem-sucedida do workspace.
Falha: falha na implantação.
Banido: Entre em contato com a equipe Databricks account .
Cancelamento: em processo de cancelamento.
Se o status do seu novo workspace for Failed (Falha), clique em workspace para view uma mensagem de erro detalhada. Se o senhor não entender o erro, entre em contato com a equipe Databricks account .
O senhor não pode atualizar a configuração de um site com falha workspace. O senhor deve excluí-lo e criar um novo workspace.
Fazer login em um workspace
Vá para o consoleaccount e clique no ícone do espaço de trabalho.
Na linha com seu workspace, clique em Abrir.
Para log in como administrador de workspace, log in com seu endereço de account proprietário ou account administrador email.
Proteja os workspace's GCS buckets em seu projeto
Quando o senhor cria um workspace, o Databricks on Google Cloud cria dois buckets Google Cloud Storage GCS no seu projeto GCP:
Um bucket GCS armazena dados do sistema que são gerados à medida que o senhor usa vários recursos do Databricks, como a criação do Notebook. Esse bucket inclui Notebook revisões, Job detalhes da execução, resultados do comando e Spark logs.
Outro armazenamento do bucket GCS é o armazenamento raiz do workspacepara o sistema de arquivosDatabricks (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Criar outra fonte de dados e armazenamento para dados de produção do cliente em GCS buckets adicionais. Opcionalmente, o senhor pode montar os buckets adicionais do GCS como montagens do Databricks File System (DBFS). Consulte Conectar-se ao Google Cloud Storage.
Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.
Para proteger esses buckets do GCS:
Em um navegador, acesse o GCP Cloud Console.
Selecione o projeto do Google cloud que hospeda seu Databricks workspace.
Acesse a página do serviço de armazenamento desse projeto.
Procure os baldes para seu novo workspace. Seus nomes são:
databricks-<workspace id>
databricks-<workspace id>-system
Para cada balde:
Clique no balde para acessar view detalhes.
Clique na guia Permissões .
Revise todas as entradas da lista Members (Membros) e determine se o acesso é esperado para cada membro.
Verifique a coluna Condição do IAM. Algumas permissões, como as denominadas "Databricks serviço account para workspace", têm IAM condições que as restringem a determinados buckets. A UI do console do Google cloud não avalia a condição, portanto, pode mostrar funções que, na verdade, não poderiam acessar o bucket.
Preste atenção especial às funções sem nenhuma condição de IAM. Considere a possibilidade de adicionar restrições a eles:
Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir os buckets do Databricks ou para permitir apenas buckets específicos.
Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se apenas o acesso de leitura for necessário, especifique Storage Viewer em vez de Storage Admin.
Aviso
Não use as funções básicas porque elas são muito amplas.
Habilite o registro de auditoria do Google cloud Data Access. A Databricks recomenda enfaticamente que o senhor ative o registro de auditoria do Data Access para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria do Data Access pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configuração dos logs de auditoria do Data Access.
Se o senhor tiver dúvidas sobre como proteger esses GCS buckets, entre em contato com a equipe Databricks account .
Próximos passos
Agora que o senhor implantou o site workspace, pode começar a desenvolver sua estratégia de dados. A Databricks recomenda os seguintes artigos:
Adicione usuários, grupos e entidades de serviço ao seu workspace. gerenciar usuários, entidades de serviço e grupos.
Saiba mais sobre governança de dados e privilégios no Databricks. Consulte O que é o Unity Catalog?
Conecte seu Databricks workspace à fonte de dados externa. Consulte Conectar-se à fonte de dados.
Faça a ingestão de seus dados no site workspace. Consulte Ingerir dados em um lakehouse da Databricks.
Aprenda a gerenciar o acesso a objetos do site workspace, como Notebook, compute, dashboards e consultas. Consulte Listas de controle de acesso.