Guia do usuário

A Databricks Data Intelligence Platform permite que os profissionais de dados de toda a sua organização colaborem e produzam soluções de dados usando ferramentas e ativos de dados compartilhados e governados com segurança.

Este artigo procura ajudá-lo a identificar o ponto de partida correto para o seu caso de uso.

Muitas tarefas em Databricks exigem permissões elevadas. Muitas organizações restringem essas permissões elevadas a um pequeno número de usuários ou equipes. Este artigo separa as ações que podem ser concluídas pela maioria dos usuários do workspace das ações que são restritas a usuários privilegiados.

Os administradores do workspace podem ajudá-lo a determinar se o senhor deve solicitar acesso ao ativo ou permissões elevadas.

Encontre e acesse dados

Esta seção fornece uma breve visão geral da tarefa para ajudá-lo a descobrir os dados ativos disponíveis para o senhor. A maioria dessas tarefas pressupõe que um administrador tenha configurado permissões nos dados ativos. Consulte Configurar o acesso aos dados.

área de recurso

Recursos

Descobrimento de dados

Para obter uma visão geral mais detalhada da tarefa Descoberta de dados, consulte Descobrir dados.

Catálogos

Os catálogos são o objeto de nível superior no modelo de governança de dados do Unity Catalog. Use o Catalog Explorer para localizar tabelas, visualizações e outros dados ativos. Consulte Explorar objetos de banco de dados.

Armazenamento conectado

Se o senhor tiver acesso ao compute recurso, poderá usar o comando integrado para explorar arquivos no armazenamento conectado. Consulte Explore o armazenamento e encontre arquivos de dados.

carregar arquivos locais

Em default, os usuários têm permissões para upload pequenos arquivos de dados do seu computador local, como CSVs. Consulte Criar ou modificar uma tabela usando o upload de arquivos.

Trabalhe com dados

Esta seção fornece uma visão geral das tarefas de dados comuns e das ferramentas usadas para realizá-las.

Para todas as tarefas descritas, os usuários devem ter as permissões adequadas para ferramentas, compute recurso, dados e outros artefatos workspace. Consulte Configurar acesso aos dados e Configurar espaço de trabalho e infraestrutura.

área de recurso

Recursos

objetos de banco de dados

Além de tabelas e visualizações, o site Databricks usa outros objetos de banco de dados seguros, como volumes, para controlar os dados com segurança. Consulte Objetos de banco de dados em Databricks.

Permissões de dados

Unity Catalog rege todas as operações de leitura e gravação no espaço de trabalho habilitado. O senhor deve ter as permissões adequadas para concluir essas operações. Consulte Objetos securizáveis no Unity Catalog.

ETL

As cargas de trabalho de extração, transformação e carregamento (ETL) estão entre os usos mais comuns para Apache Spark e Databricks, e a maior parte da plataforma tem recursos criados e otimizados para ETL. Veja como executar sua primeira carga de trabalho ETL em Databricks.

Consultas

  • Todas as transformações, relatórios, análises ou execução de treinamento de modelos começam com uma consulta a uma tabela, view, ou arquivos de dados. O senhor pode consultar o uso de dados em lotes ou o processamento da transmissão. Consulte Dados da consulta.

Dashboards & percepções

  • AI/BI Os dashboards permitem que o senhor extraia e visualize percepções facilmente na interface do usuário. Consulte Painéis.

  • Genie spaces usar prompts de texto para responder a perguntas e fornecer percepções informadas por seus dados. Consulte O que é um espaço AI/BI Genie.

Ingerir

  • Auto Loader pode ser usado com o trabalho Delta Live Tables ou transmissão estruturada para ingerir dados de forma incremental a partir do armazenamento de objetos na nuvem. Consulte O que é o Auto Loader?

  • O senhor pode usar Delta Live Tables ou transmissão estruturada para ingerir dados de filas de mensagens, incluindo Kafka. Consulte Consultar dados de transmissão.

Transformações

Databricks usa sintaxe e ferramentas comuns para transformações que variam em complexidade, desde SQL declarações CTAS até aplicativos de transmissão em tempo real. Para obter uma visão geral das transformações de dados, consulte transformação de dados.

AI e aprendizado de máquina

A Databricks Data Intelligence Platform oferece um conjunto de ferramentas para ciência de dados, aprendizado de máquina e aplicativos AI. Consulte AI e aprendizado de máquina em Databricks.

Configurar o acesso aos dados

A maioria dos espaços de trabalho Databricks depende de um administrador workspace ou de outros usuários avançados para configurar conexões com fontes de dados externas e aplicar privilégios aos dados ativos com base na associação à equipe, região ou funções. Esta seção fornece uma visão geral das tarefas comuns para configurar e controlar o acesso aos dados que exigem permissões elevadas.

Observação

Antes de solicitar permissões elevadas para configurar uma nova conexão com uma fonte de dados, confirme se o senhor está apenas perdendo privilégios em uma conexão, catálogo ou tabela existente. Se uma fonte de dados não estiver disponível, consulte sua organização sobre a política para adicionar novos dados ao seu site workspace.

área de recurso

Recursos

Unity Catalog

  • Unity Catalog O senhor pode usar o recurso de governança de dados incorporado na Databricks Data Intelligence Platform. Consulte O que é o Unity Catalog?

  • Databricks account administradores, administradores de workspace e administradores de metastore têm privilégios de default para gerenciar privilégios de dados de Unity Catalog para os usuários. Consulte gerenciar privilégios em Unity Catalog.

Conexões e acesso

Compartilhar

  • Os administradores podem criar novos catálogos. Os catálogos fornecem uma abstração de alto nível para o isolamento de dados e podem ser vinculados a um espaço de trabalho individual ou compartilhados em todos os espaços de trabalho em um account. Consulte Criar catálogos.

  • AI/BI Os painéis incentivam os proprietários a incorporar suas credenciais ao publicar, garantindo que os espectadores possam obter percepções dos resultados compartilhados. Para obter detalhes, consulte Compartilhar um painel.

Configurar o espaço de trabalho e a infraestrutura

Esta seção fornece uma visão geral das tarefas comuns associadas à administração do workspace ativo e da infraestrutura. Em termos gerais, workspace ativo inclui o seguinte:

  • compute recurso: compute recurso inclui clustering interativo para todos os fins, SQL warehouse, Job clustering e pipeline compute. Um usuário ou carga de trabalho deve ter permissões para se conectar ao recurso compute em execução para processar a lógica especificada.

    Observação

    Os usuários que não têm acesso para se conectar a qualquer recurso do compute têm funcionalidade muito limitada no Databricks.

  • Ferramentas da plataforma: A Databricks Data Intelligence Platform oferece um conjunto de ferramentas adaptadas a diferentes casos de uso e personas, como Notebook, Databricks SQL e Mosaic AI. Os administradores podem personalizar as configurações que incluem comportamentos do default, recurso opcional e acesso do usuário para muitas dessas ferramentas.

  • Artefatos: Os artefatos incluem Notebook, consultas, dashboards, arquivos, biblioteca, pipeline e Job. Os artefatos contêm código e configurações que os usuários criam para realizar as ações desejadas em seus dados.

Importante

O usuário que cria um workspace ativo recebe a função de proprietário pelo default. Na maioria dos ativos, os proprietários podem conceder permissões a qualquer outro usuário ou grupo no site workspace.

Para garantir que os dados e o código estejam seguros, o site Databricks recomenda configurar a função de proprietário para todos os artefatos e compute recurso implantado em uma produção workspace.

área de recurso

Recursos

direitos de espaço de trabalho

Os direitos do espaço de trabalho incluem acesso básico a workspace, acesso a Databricks SQL e criação irrestrita de clustering. Ver gerenciar direitos.

computar acesso a recursos & políticas

  • A maioria dos custos em Databricks é para compute recurso. Controlar quais usuários têm a capacidade de configurar, implantar, começar e usar vários recursos é vital para controlar os custos. Consulte Connect to all-purpose e Job compute.

  • As políticas de computação funcionam em conjunto com os direitos workspace compute para garantir que os usuários autorizados implantem apenas compute recurso seguindo as regras de configuração especificadas. Consulte Criar e gerenciar políticas em compute .

  • Os administradores podem configurar os comportamentos do default, as políticas de acesso aos dados e o acesso do usuário ao armazém SQL. Consulte Configurações de administração do SQL warehouse.

Ferramentas de plataforma

Use o console de administração para configurar comportamentos que vão desde a personalização da aparência do site workspace até a ativação ou desativação do produto e do recurso. Consulte gerenciar seu workspace.

ACLs do espaço de trabalho

As listas de controle de acesso ao espaço de trabalho (ACLs) controlam como os usuários e grupos podem interagir com o workspace ativo, incluindo compute recurso, artefatos de código e trabalho. Consulte Listas de controle de acesso.

Produtize cargas de trabalho

Todos os produtos Databricks são criados para acelerar o caminho do desenvolvimento à produção e para garantir escala e estabilidade. Esta seção fornece uma breve introdução ao conjunto de ferramentas recomendado para colocar cargas de trabalho em produção.

área de recurso

Recursos

ETL tubulação

Delta Live Tables O pipeline fornece uma sintaxe declarativa para criar e produzir o pipeline ETL. Veja o que é Delta Live Tables?

Orquestração

O Jobs permite que o senhor defina fluxos de trabalho complexos com dependências, acionadores e programação. Consulte Visão geral da orquestração no Databricks.

CI/CD

Databricks Os pacotes ativos facilitam gerenciar e implantar dados, ativos e artefatos em todo o espaço de trabalho. Veja o que são Databricks ativo Bundles?