Introdução: configuração da conta e do workspace

Se você é novo no Databricks, encontrou o lugar para começar. Este artigo guia você pelos passos mínimos necessários para criar sua conta e iniciar o seu primeiro espaço de trabalho.

Para obter informações sobre recursos de treinamento online, consulte Obter treinamento gratuito do Databricks.

começar um teste do Databricks grátis nas cloudsdo Google

Estas são instruções detalhadas sobre como assinar o Databricks com uma inscrição de teste grátis, que se torna uma inscrição pré-paga após o término do teste grátis.

Observação

Para colocar os usuários em funcionamento no Databricks on Google Cloud, você deve:

  1. Crie sua inscrição do Databricks no Google clouds marketplace. Isso cria uma account do Databricks. Você é o proprietário account e somente você pode realizar a configuração inicial, mas pode atribuir outros usuários como administradores account para executar tarefas subsequentes de administração account .

  2. Crie pelo menos um espaço de trabalho do Databricks. Um workspace é o ambiente que sua equipe utilizará para acessar todos os seus Databricks ativos.

  3. Adicione usuários e grupos ao seu workspace.

Assista Databricks on Google Cloud para uma visão geral desse processo.

Requisitos

Antes de criar uma Databricks on Google Cloud account:

  • Você deve ter uma conta de faturamento do Google.

  • Você deve ter as seguintes funções para o Google Identity and Access Management (IAM):

    • Administrador de faturamento (roles/billing.admin) da de faturamento de destino clouds account ou da organização do Google clouds onde seu projeto está localizado. Se você não tiver essa função, entre em contato com um administrador da organização para solicitar acesso.

    • Leitor (roles/viewer) do projeto associado à account de faturamento que você planeja usar. Se você não for um visualizador, poderá entrar em contato com o proprietário do projeto para solicitar acesso ou criar um novo projeto para obter as permissões corretas. Se você criar um novo projeto, deverá ativar o faturamento e vincular o projeto à de clouds faturamento account desejada.

    Para saber mais sobre a relação entre organizações, projetos e faturamento clouds do Google, consulte a documentação do Google sobre controle de acesso de faturamentoclouds . Para saber mais sobre funções e permissões nas clouds do Google, consulte a documentação em Noções básicas sobre funções.

    Talvez você não seja o único usuário em sua organização que pode cancelar a inscrição do Databricks. A inscrição pode ser cancelada por usuários do Google clouds na sua organização que tenham a permissão consumerprocurement.orders.cancel na account de faturamento, que é o caso daqueles com a função de Administrador de Faturamento na account de faturamento ou a função de Proprietário da Organização na Organização pai.

    Importante

    A Databricks recomenda confirmar se o conjunto de usuários clouds do Google que podem cancelar a inscrição do Databricks é o conjunto correto de usuários. O acesso excessivamente amplo pode levar ao cancelamento acidental da inscrição, o que exclui todo o workspace da account do Databricks. a exclusão workspace não é reversível.

  • Você deve ter um projeto clouds do Google para implantar seu workspace . Você precisa do ID do projeto ao criar seu workspace do Databricks. Não precisa ser o mesmo projeto clouds do Google associado à sua account de faturamento . Durante a criação do espaço de trabalho, o Databricks habilita algumas APIs do Google necessárias no projeto , caso ainda não estejam habilitadas.

    Se você ainda não possui um projeto clouds do Google no qual irá implantar seu workspace, crie um agora:

    1. Confirme se sua account do Google está habilitada para Google workspace ou clouds Identity.

    2. Confirme se você tem um objeto de organização do Google clouds Identity definido em seu console do Google clouds . Se necessário, você pode consultar a documentação do Google sobre Criação e gerenciamento de organizações.

    3. Crie o projeto. Consulte os artigos da documentação do Google Criando e gerenciando organizações. Você deve definir a organização pai do projeto. Se você não especificar um ID de projeto durante a criação do projeto, um ID de projeto será gerado automaticamente.

    4. Copie o ID do projeto clouds do Google. Você precisa disso para criar workspace do Databricks.

    Se você tem um projeto mas não sabe seu ID, acesse a página de gerenciamento de recurso do Google clouds Platform Console . Encontre seu projeto e copie seu ID.

  • O projeto clouds do Google que você planeja usar com seu workspace para executar clusters deve ter cotas apropriadas. Revise as cotas de recursos necessárias para seu projeto. Talvez seja necessário solicitar aumentos de cota e aguardar a aprovação. Se você alterar alguma cota, aguarde 15 minutos para que as alterações entrem em vigor antes de criar um workspace. Se você solicitou aumentos, aguarde 15 minutos após receber email a confirmação das atualizações nas cotas.

  • Para se preparar para a criação workspace, confirme as permissões necessárias para criar um workspace. Consulte Permissões necessárias.

  • Se a política da sua organização clouds do Google permitir o compartilhamento restrito de domínio, certifique-se de que os IDs de cliente clouds do Google para Databricks (C01p0oudw) e o ID de cliente da sua própria organização estejam na lista permitida da política. Consulte os artigos do Google Configurando a política da organização. Se precisar de ajuda, contacte a sua equipa account Databricks antes de provisionar o seu espaço de trabalho.

Configure uma avaliação gratuita do Databricks e primeiro espaço de trabalho

Observação

Se a sua empresa possui contrato de inscrição, não utilize estas instruções. Pergunte à sua equipe account do Databricks como criar sua inscrição com uma oferta privada do Google marketplace .

  1. Vá para a listagem do Databricks no Google clouds Marketplace.

    Existem outras maneiras de chegar a esta página. Vá para o Google clouds Marketplace Explorer, use a caixa de pesquisa do Marketplace para pesquisar “Databricks” e clique em Databricks. Você também pode acessar o Google clouds Console e, na navegação à esquerda, em parceiros soluções, clicar em Databricks.

  2. No seletor de projetos da navegação superior, selecione o projeto clouds do Google associado à account de cobrança que você deseja usar com o Databricks. Não é necessário que seja o mesmo projeto que você usa para implantar seu workspace.

    seletor de projeto de listagem marketplace
  3. Revise os preços, cancelamento, política de alteração e termos de serviço.

    O Databricks cobra pelo uso do Databricks em unidades do Databricks (DBUs). O número de DBUs que uma carga de trabalho consome varia com base em vários fatores, incluindo o tipo de computação do Databricks (para todos os fins ou Job) e o tipo de máquina clouds do Google. Para obter detalhes, consulte a página de preços.

    Custos adicionais são incorridos em sua do clouds account Google:

    • clouds do Google cobram um custo adicional por espaço deworkspace para os clusters do GKE que o Databricks cria para a infraestrutura do Databricks em sua account. Em 30 de março de 2021, o custo desses clusters do GKE é de aproximadamente US$ 200/mês, proporcional aos dias do mês em que os clusters do GKE são executados. Os preços podem mudar, portanto verifique os preços mais recentes.

    • O custo do cluster do GKE se aplica mesmo que os clusters do Databricks sejam parados. Para reduzir esse custo de tempo de parada, o Databricks exclui os clusters do GKE em sua account se nenhum clusters do Databricks Runtime estiver ativo por cinco dias. Outros recursos, como buckets VPC e GCS, permanecem inalterados. Na próxima vez que um clusters do Databricks Runtime começar, o Databricks recriará os clusters do GKE, o que aumentará o tempo de inicialização inicial clusters do Databricks Runtime. Para ver um exemplo de como a exclusão clusters do GKE reduz os custos mensais, digamos que você usou clusters do Databricks Runtime no primeiro dia do mês, mas não novamente no resto do mês: seu uso do GKE seria cinco dias antes de o tempo limite do parado entrar em vigor e nada mais, custando aproximadamente US$ 33 por mês.

  4. No topo da página, clique em Inscrever-se.

  5. Na página Resumo do pedido:

    1. Selecione um período de inscrição.

    2. Selecione uma account de faturamento. A de default faturamento account exibida no seletor é baseada no projeto selecionado na navegação superior da página de visualização. Se você tiver acesso a vários projetos, o seletor account de faturamento mostrará opções adicionais account de faturamento.

    3. Leia a seção Termos.

    4. Marque as caixas de seleção para confirmar o consentimento para o faturamento e os termos de serviço.

    5. Clique em "Inscrever-se".

  6. No pop-up que diz “Sua solicitação de pedido foi enviada para Databricks”, clique em registro com Databricks.

  7. Na janela pop-up Bem-vindo ao Databricks:

    1. Digite o nome da sua empresa. Não insira um endereço email .

    2. Clique em Fazer login com o Google. O Google pode solicitar que você selecione o account email endereço da sua do Google.

  8. Depois de confirmar a identidade e o acesso, você verá a listagem do Databricks no do clouds marketplace Google. Na parte superior, clique no botão azul Gerenciar em Provedor. Se o botão azul na parte superior disser registro com Databricks, aguarde alguns segundos e recarregue a página da web. Repita até que o botão azul diga Gerenciar no Provedor e clique nesse botão.

    Importante

    É fundamental que você clique em gerenciar no Provedor para ativar sua inscrição.

  9. No pop-up Você está saindo do Google, clique em OK. Talvez seja necessário escolher um endereço do Google account email e confirmar sua identidade.

  10. Escolha um plano. Inicialmente você está no plano Standard, mas pode atualizar para o plano Premium. Você pode comparar os diferentes planos de preços do Databricks. Posteriormente, você poderá fazer upgrade ou downgrade do plano da sua account . Atualizações e downgrades afetam workspace futuro, mas há diferenças importantes entre como a atualização e o downgrade funcionam no workspace existente. Consulte Confirmar ou alterar o seu plano de inscrição.

  11. Você vê o consoleaccount do Databricks, onde você cria e gerencia seu workspace. Você pode querer marcar a página da web do console account . Consulte gerenciar sua conta do Databricks.

  12. No console account do Databricks, clique em Criar Workspace para criar seu primeiro workspace. Consulte Criar um espaço de trabalho usando o console account para obter detalhes adicionais.

Na maioria das contas, o workspace será ativado para o Unity Catalog pelo default, fornecendo governança de dados centralizada e gerenciamento de identidade. Consulte O que é o Unity Catalog? e Configurar e gerenciar o Unity Catalog.

Considerações sobre a criação do espaço de trabalho

Quando o senhor criar seu workspace, considere o seguinte:

  • Se você planeja usar clusters grandes ou muitos workspace, certifique-se de que seu workspace tenha espaço IP suficiente para executar Job do Databricks calculando os intervalos de sub-rede do GKE usando a calculadora de dimensionamento de rede.

  • Não modifique nem personalize os clusters do Google Kubernetes Engine (GKE) que são lançados pela Databricks para o seu workspace. Se o senhor precisar personalizar os clusters, entre em contato com a equipe da Databricks account para verificar a segurança e a capacidade de manutenção a longo prazo de tal alteração.

log in em um espaço de trabalho do Databricks

Os workspace usuários do Databricks autenticam-se com sua de clouds identidade do Google account (ou GSuite)account usando a implementação OAuth 2.0 do Google , que está em conformidade com a especificação OpenID Connect e é certificada pelo OpenID. Databricks fornece os valores de escopo do perfil openid na solicitação de autenticação ao Google. Opcionalmente, você pode configurar sua de clouds identidade do Google account (ou GSuite)account para federar com um provedor de identidade (IdP) SAML 2.0 externo para verificar as credenciais do usuário. O Google clouds Identity pode ser federado com Microsoft Entra ID (anteriormente Azure Active Directory), Okta, Ping e outros IdPs. No entanto, o Databricks interage diretamente apenas com as APIs do Google Identity Platform.

Databricks não tem acesso às credenciais do usuário. Esta arquitetura reduz os riscos associados ao armazenamento ou proteção das credenciais do utilizador porque o Databricks não tem acesso às mesmas.

Há três maneiras de um usuário workspace fazer log in em um workspace:

  • Todos os usuários podem usar o URL workspace diretamente: usuários regulares, administradores workspace e administradores account podem usar o URL workspace diretamente. O usuário é autenticado por meio da integração do Databricks com a implementação do Identity OAuth 2.0 clouds do Google. Quando um usuário é adicionado ao workspace, o usuário recebe um email que inclui o URL.

  • Todos os usuários podem acessar seu workspace por meio do console do Databricks account : Use seu nome de usuário (endereço de email) do Databricks para logs no account console , vá para a workspace tab, encontre seu workspace e clique em Abrir .

  • os administradoresaccount também podem usar o console do Google clouds para acessar o workspace: os administradores account se autenticam com o Google Identity OAuth 2.0 para acessar o console account do Databricks. O console account oferece uma lista de workspace disponíveis para você escolher. Você é redirecionado para a página de login workspace com tokens de autenticação. Se os tokens forem aceitos, você não será solicitado a log in novamente. No primeiro login, você será desafiado a consentir com os escopos do OAuth.

Próximos passos

Suas próximas passos dependem se você deseja continuar configurando a organização e a segurança de sua account ou deseja começar a criar o pipeline de dados:

Obtenha ajuda

Se você tiver alguma dúvida sobre como configurar o Databricks e precisar de ajuda ao vivo, envie um e-mail onboarding-help@databricks.com.

Se você tem um pacote de suporte do Databricks, pode abrir e gerenciar casos de suporte no Databricks. Consulte Saiba como usar o suporte do Databricks.

Se a sua organização não tiver uma assinatura de suporte do Databricks, ou se você não for um contato autorizado para a assinatura de suporte da sua empresa, você poderá obter respostas para muitas perguntas no Horário de funcionamento do Databricks ou na Comunidade Databricks.

Se precisar de ajuda adicional, inscreva-se para uma demonstração semanal ao vivo para fazer perguntas e praticar com especialistas do Databricks. Ou siga esta série de blogs sobre práticas recomendadas para gerenciar e manter seus ambientes.