Obter começar com Databricks

Se o senhor é novo na Databricks, encontrou o lugar certo para começar. Esta seção inclui instruções para a configuração básica do account, um tour pela interface de usuário do Databricks workspace e alguns tutoriais básicos relacionados à análise exploratória de dados e ao ETL no Databricks.

Para obter informações sobre recursos de treinamento online, consulte Obter treinamento gratuito do Databricks.

começar um teste do Databricks grátis nas cloudsdo Google

Estas são instruções detalhadas sobre como assinar o Databricks com uma inscrição de teste grátis, que se torna uma inscrição pré-paga após o término do teste grátis.

Observação

  • Se a sua empresa possui contrato de inscrição, não utilize estas instruções. Pergunte à sua equipe account do Databricks como criar sua inscrição com uma oferta privada do Google marketplace .

  • Se o senhor já estiver familiarizado com a configuração de novos aplicativos no Google marketplace, poderá usar as instruções de início rápido mais curtas para criar uma nova inscrição gratuita de teste.

Para colocar os usuários em funcionamento no Databricks on Google Cloud, você deve:

  1. Crie sua inscrição do Databricks no Google clouds marketplace. Isso cria uma account do Databricks. Você é o proprietário account e somente você pode realizar a configuração inicial, mas pode atribuir outros usuários como administradores account para executar tarefas subsequentes de administração account .

  2. Crie pelo menos um espaço de trabalho do Databricks. Um workspace é o ambiente que sua equipe utilizará para acessar todos os seus Databricks ativos.

  3. Adicione usuários e grupos ao seu workspace.

Assista Databricks on Google Cloud para uma visão geral desse processo.

Requisitos

Antes de criar uma Databricks on Google Cloud account:

  • Você deve ter uma conta de faturamento do Google.

  • Você deve ter as seguintes funções para o Google Identity and Access Management (IAM):

    • Administrador de faturamento (roles/billing.admin) da de faturamento de destino clouds account ou da organização do Google clouds onde seu projeto está localizado. Se você não tiver essa função, entre em contato com um administrador da organização para solicitar acesso.

    • Leitor (roles/viewer) do projeto associado à account de faturamento que você planeja usar. Se você não for um visualizador, poderá entrar em contato com o proprietário do projeto para solicitar acesso ou criar um novo projeto para obter as permissões corretas. Se você criar um novo projeto, deverá ativar o faturamento e vincular o projeto à de clouds faturamento account desejada.

    Para saber mais sobre a relação entre organizações, projetos e faturamento clouds do Google, consulte a documentação do Google sobre controle de acesso de faturamentoclouds . Para saber mais sobre funções e permissões nas clouds do Google, consulte a documentação em Noções básicas sobre funções.

    Talvez você não seja o único usuário em sua organização que pode cancelar a inscrição do Databricks. A inscrição pode ser cancelada por usuários do Google clouds na sua organização que tenham a permissão consumerprocurement.orders.cancel na account de faturamento, que é o caso daqueles com a função de Administrador de Faturamento na account de faturamento ou a função de Proprietário da Organização na Organização pai.

    Importante

    A Databricks recomenda confirmar se o conjunto de usuários clouds do Google que podem cancelar a inscrição do Databricks é o conjunto correto de usuários. O acesso excessivamente amplo pode levar ao cancelamento acidental da inscrição, o que exclui todo o workspace da account do Databricks. a exclusão workspace não é reversível.

  • O senhor deve ter um projeto do Google cloud para implantar seu espaço de trabalho. O senhor precisa do ID do projeto ao criar o site Databricks workspace. Não é necessário que esse seja o mesmo projeto do Google cloud associado ao seu faturamento account. Durante a criação do espaço de trabalho, o Databricks ativa algumas APIs do Google necessárias no projeto, caso ainda não estejam ativadas.

    Se você ainda não possui um projeto clouds do Google no qual irá implantar seu workspace, crie um agora:

    1. Confirme se sua account do Google está habilitada para Google workspace ou clouds Identity.

    2. Confirme se você tem um objeto de organização do Google clouds Identity definido em seu console do Google clouds . Se necessário, você pode consultar a documentação do Google sobre Criação e gerenciamento de organizações.

    3. Crie o projeto. Consulte os artigos da documentação do Google Criando e gerenciando organizações. Você deve definir a organização pai do projeto. Se você não especificar um ID de projeto durante a criação do projeto, um ID de projeto será gerado automaticamente.

    4. Copie o ID do projeto clouds do Google. Você precisa disso para criar workspace do Databricks.

    Se você tem um projeto mas não sabe seu ID, acesse a página de gerenciamento de recurso do Google clouds Platform Console . Encontre seu projeto e copie seu ID.

  • O projeto do Google cloud que o senhor planeja usar com seu workspace para execução clusters deve ter cotas apropriadas. Analise as cotas de recurso necessárias para seu projeto. Talvez o senhor precise solicitar aumentos de cota e aguardar a aprovação. Se o senhor alterar alguma cota, aguarde 15 minutos para que as alterações tenham efeito antes de criar um workspace. Se o senhor solicitou aumentos, aguarde 15 minutos após receber a confirmação do site email sobre as atualizações das cotas.

  • Para se preparar para a criação do espaço de trabalho, confirme as permissões necessárias para criar um workspace. Consulte Permissões necessárias.

  • Se a política da sua organização clouds do Google permitir o compartilhamento restrito de domínio, certifique-se de que os IDs de cliente clouds do Google para Databricks (C01p0oudw) e o ID de cliente da sua própria organização estejam na lista permitida da política. Consulte os artigos do Google Configurando a política da organização. Se precisar de ajuda, contacte a sua equipa account Databricks antes de provisionar o seu espaço de trabalho.

Configure uma avaliação gratuita do Databricks e primeiro espaço de trabalho

Observação

Se a sua empresa possui contrato de inscrição, não utilize estas instruções. Pergunte à sua equipe account do Databricks como criar sua inscrição com uma oferta privada do Google marketplace .

  1. Vá para a listagem do Databricks no Google clouds Marketplace.

    Existem outras maneiras de chegar a esta página. Vá para o Google clouds Marketplace Explorer, use a caixa de pesquisa do Marketplace para pesquisar “Databricks” e clique em Databricks. Você também pode acessar o Google clouds Console e, na navegação à esquerda, em parceiros soluções, clicar em Databricks.

  2. No seletor de projetos da navegação superior, selecione o projeto clouds do Google associado à account de cobrança que você deseja usar com o Databricks. Não é necessário que seja o mesmo projeto que você usa para implantar seu workspace.

    seletor de projeto de listagem marketplace
  3. Revise os preços, cancelamento, política de alteração e termos de serviço.

    O Databricks cobra pelo uso do Databricks em unidades do Databricks (DBUs). O número de DBUs que uma carga de trabalho consome varia com base em vários fatores, incluindo o tipo de computação do Databricks (para todos os fins ou Job) e o tipo de máquina clouds do Google. Para obter detalhes, consulte a página de preços.

    Custos adicionais são incorridos em sua do clouds account Google:

    • clouds do Google cobram um custo adicional por espaço deworkspace para os clusters do GKE que o Databricks cria para a infraestrutura do Databricks em sua account. Em 30 de março de 2021, o custo desses clusters do GKE é de aproximadamente US$ 200/mês, proporcional aos dias do mês em que os clusters do GKE são executados. Os preços podem mudar, portanto verifique os preços mais recentes.

    • O custo do cluster do GKE se aplica mesmo que os clusters do Databricks sejam parados. Para reduzir esse custo de tempo de parada, o Databricks exclui os clusters do GKE em sua account se nenhum clusters do Databricks Runtime estiver ativo por cinco dias. Outros recursos, como buckets VPC e GCS, permanecem inalterados. Na próxima vez que um clusters do Databricks Runtime começar, o Databricks recriará os clusters do GKE, o que aumentará o tempo de inicialização inicial clusters do Databricks Runtime. Para ver um exemplo de como a exclusão clusters do GKE reduz os custos mensais, digamos que você usou clusters do Databricks Runtime no primeiro dia do mês, mas não novamente no resto do mês: seu uso do GKE seria cinco dias antes de o tempo limite do parado entrar em vigor e nada mais, custando aproximadamente US$ 33 por mês.

  4. No topo da página, clique em Inscrever-se.

  5. Na página Resumo do pedido:

    1. Selecione um período de inscrição.

    2. Selecione uma account de faturamento. A de default faturamento account exibida no seletor é baseada no projeto selecionado na navegação superior da página de visualização. Se você tiver acesso a vários projetos, o seletor account de faturamento mostrará opções adicionais account de faturamento.

    3. Leia a seção Termos.

    4. Marque as caixas de seleção para confirmar o consentimento para o faturamento e os termos de serviço.

    5. Clique em "Inscrever-se".

  6. No pop-up que diz “Sua solicitação de pedido foi enviada para Databricks”, clique em registro com Databricks.

  7. Na janela pop-up Bem-vindo ao Databricks:

    1. Digite o nome da sua empresa. Não insira um endereço email .

    2. Clique em Fazer login com o Google. O Google pode solicitar que você selecione o account email endereço da sua do Google.

  8. Depois de confirmar a identidade e o acesso, você verá a listagem do Databricks no do clouds marketplace Google. Na parte superior, clique no botão azul Gerenciar em Provedor. Se o botão azul na parte superior disser registro com Databricks, aguarde alguns segundos e recarregue a página da web. Repita até que o botão azul diga Gerenciar no Provedor e clique nesse botão.

    Importante

    É fundamental que você clique em gerenciar no Provedor para ativar sua inscrição.

  9. No pop-up Você está saindo do Google, clique em OK. Talvez seja necessário escolher um endereço do Google account email e confirmar sua identidade.

  10. Escolha um plano. Inicialmente, o senhor está no plano Standard, mas pode fazer upgrade para o plano Premium. O senhor pode comparar os diferentes planos de preços da Databricks. Posteriormente, o senhor poderá fazer upgrade ou downgrade do plano do account. Os upgrades e downgrades afetam o espaço de trabalho futuro, mas há diferenças importantes entre como o upgrade e o downgrade funcionam para o espaço de trabalho existente. Consulte Confirmar ou alterar seu plano de inscrição.

  11. É exibido o console Databricks account , onde o usuário cria e gerencia o espaço de trabalho. Talvez o senhor queira marcar a página da Web do console account. Veja como gerenciar seu Databricks account .

  12. No console Databricks account , clique em Create workspace para criar seu primeiro workspace. Consulte Criar um workspace usando o console account para obter mais detalhes.

Na maioria das contas, o workspace será ativado para o Unity Catalog pelo default, fornecendo governança de dados centralizada e gerenciamento de identidade. Consulte O que é o Unity Catalog? e Configurar e gerenciar o Unity Catalog.

Considerações sobre a criação do espaço de trabalho

Quando o senhor criar seu workspace, considere o seguinte:

  • Se o senhor planeja usar um clusters grande ou muitos espaços de trabalho, certifique-se de que o espaço de trabalho tenha espaço IP suficiente para executar o Databricks Job calculando os intervalos de sub-rede do GKE usando a calculadora de dimensionamento de rede.

  • Não modifique nem personalize os clusters do Google Kubernetes Engine (GKE) que são lançados pela Databricks para o seu workspace. Se o senhor precisar personalizar os clusters, entre em contato com a equipe da Databricks account para verificar a segurança e a capacidade de manutenção a longo prazo de tal alteração.

log in em um espaço de trabalho do Databricks

Databricks workspace Os usuários se autenticam com o Google Cloud Identity account (ou GSuite account) usando a implementação OAuth 2.0 do Google, que está em conformidade com as especificações do OpenID Connect e é certificada pelo OpenID. A Databricks fornece os valores de escopo do perfil openid na solicitação de autenticação para o Google. Opcionalmente, o senhor pode configurar o Google Cloud Identity account (ou o GSuite account) para federar com um provedor de identidade (IdP) externo SAML 2.0 para verificar as credenciais do usuário. O Google Cloud Identity pode ser federado com Microsoft Entra ID, Okta, Ping e outros IdPs. No entanto, a Databricks interage diretamente apenas com as APIs do Google Identity Platform.

Databricks não tem acesso às credenciais do usuário. Esta arquitetura reduz os riscos associados ao armazenamento ou proteção das credenciais do utilizador porque o Databricks não tem acesso às mesmas.

Há três maneiras de um usuário workspace fazer log in em um workspace:

  • Todos os usuários podem usar o URL workspace diretamente: usuários regulares, administradores workspace e administradores account podem usar o URL workspace diretamente. O usuário é autenticado por meio da integração do Databricks com a implementação do Identity OAuth 2.0 clouds do Google. Quando um usuário é adicionado ao workspace, o usuário recebe um email que inclui o URL.

  • Todos os usuários podem acessar seu workspace por meio do console do Databricks account : Use seu nome de usuário (endereço de email) do Databricks para logs no account console , vá para a workspace tab, encontre seu workspace e clique em Abrir .

  • os administradoresaccount também podem usar o console do Google clouds para acessar o workspace: os administradores account se autenticam com o Google Identity OAuth 2.0 para acessar o console account do Databricks. O console account oferece uma lista de workspace disponíveis para você escolher. Você é redirecionado para a página de login workspace com tokens de autenticação. Se os tokens forem aceitos, você não será solicitado a log in novamente. No primeiro login, você será desafiado a consentir com os escopos do OAuth.

Próximos passos

Suas próximas passos dependem se você deseja continuar configurando a organização e a segurança de sua account ou deseja começar a criar o pipeline de dados:

Obtenha ajuda