Conectar a fontes de dados

Este artigo fornece recomendações opinativas sobre como administradores e outros usuários avançados podem configurar conexões entre o Databricks e fontes de dados. Se você estiver tentando determinar se tem acesso para ler dados de um sistema externo, comece revisando os dados aos quais você tem acesso em seu workspace. Consulte Descobrir dados.

Você pode conectar sua conta do Databricks a fontes de dados, como armazenamento de objetos em nuvem, sistemas de gerenciamento de bancos de dados relacionais, serviços de streaming de dados e plataformas empresariais, como CRMs. Os privilégios específicos necessários para configurar conexões dependem da fonte de dados, de como estão configuradas as permissões em seu workspace do Databricks, das permissões necessárias para interagir com dados na fonte, de seu modelo de governança de dados e de seu método preferido de conexão.

A maioria dos métodos exige privilégios elevados na fonte de dados e no workspace do Databricks para configurar as permissões necessárias para integrar sistemas. Usuários sem essas permissões devem solicitar ajuda. Consulte Solicitar acesso a fontes de dados.

Configurar conexões de armazenamento de objetos

O armazenamento de objetos na nuvem fornece a base para armazenar a maioria dos dados no Databricks. Para saber mais sobre o armazenamento de objetos na nuvem e onde o Databricks armazena dados, consulte Onde o Databricks grava dados?.

O Databricks recomenda usar o Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem. O Unity Catalog fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos na nuvem. Consulte Conectar-se ao armazenamento de objetos na nuvem usando o Unity Catalog.

Clientes que não usam o Unity Catalog devem configurar conexões usando métodos legados. Consulte Configurar acesso ao armazenamento de objetos na nuvem para o Databricks.

Para configurar a rede para o armazenamento de objetos na nuvem, consulte Rede.

Configurar conexões com sistemas de dados externos

O Databricks recomenda várias opções para configurar conexões com sistemas de dados externos, dependendo de suas necessidades. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção

Descrição

Lakehouse Federation

Fornece acesso somente leitura aos dados em sistemas de dados corporativos. As conexões são configuradas por meio do Unity Catalog em nível de catálogo ou de esquema, sincronizando várias tabelas com uma única configuração. Consulte O que é a Lakehouse Federation?.

Partner Connect

Aproveita soluções de parceiros de tecnologia para se conectar a fontes de dados externas e automatizar a ingestão de dados no lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse de sistemas externos. Consulte O que é o Databricks Partner Connect?

Drivers

O Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Ou então, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Conectar-se a sistemas externos.

JDBC

Vários drivers incluídos para sistemas externos são baseados no suporte nativo ao JDBC, e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte Consultar bancos de dados usando JDBC.

Conectar-se a fontes de dados de streaming

O Databricks fornece conectores otimizados para muitos sistemas de streaming de dados.

Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregar essas credenciais no Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de streaming são compatíveis com a passagem de credenciais usando opções quando você define consultas de streaming. Consulte Configurar fontes de dados de streaming.

Solicitar acesso às fontes de dados

Em muitas organizações, a maioria dos usuários não tem privilégios suficientes no Databricks ou em fontes de dados externas para configurar conexões de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados usando um dos padrões descritos nos artigos vinculados nesta página. Se sua organização tiver um processo bem definido para solicitar acesso aos dados, o Databricks recomenda seguir esse processo.

Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudá-lo a:

  1. Usar o Explorador de Catálogos para exibir as tabelas e os volumes que você pode acessar. Consulte O que é o Explorador de Catálogos?.

  2. Pergunte a seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.

    • A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar permissões para usuários do workspace. Se outros membros de sua equipe puderem acessar as fontes de dados que você precisa acessar, peça a um administrador de workspaces que o adicione ao grupo correto para conceder acesso a você.

    • Se uma tabela, volume ou fonte de dados específica foi configurado por um colega de trabalho, esse indivíduo deve ter permissões para conceder acesso aos dados.

  3. Algumas organizações configuram permissões de acesso a dados por meio de configurações em clusters de compute e SQL warehouses.

    • O acesso às fontes de dados pode variar de acordo com o compute.

    • Você pode ver o criador do compute na guia Compute. Entre em contato com o criador para perguntar sobre fontes de dados que devem ser acessíveis.