Acesso Databricks uso de dados sistemas externos
Este artigo fornece uma visão geral da funcionalidade e das recomendações para tornar os dados gerenciados e governados pelo site Databricks disponíveis para outros sistemas.
Esses padrões se concentram em cenários em que sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Databricks. Se estiver procurando orientação sobre o compartilhamento de dados fora de sua organização, consulte Compartilhar dados e AI ativo de forma segura com usuários de outras organizações.
Qual é o acesso externo suportado pela Databricks?
Databricks recomenda o uso do site Unity Catalog para controlar todos os seus dados ativos.
A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Unity Catalog.
Objeto do Unity Catalog |
Formatos suportados |
Padrões de acesso |
---|---|---|
Tabelas gerenciadas |
Delta Lake, Iceberg |
Venda de credenciais, catálogo Iceberg REST, Delta Sharing |
Tabelas externas |
Delta Lake |
Venda de credenciais, catálogo Iceberg REST, Delta Sharing, URIs de nuvem |
Tabelas externas |
CSV, JSON, Avro, Parquet, ORC, texto |
URIs de nuvem |
Volumes externos |
Todos os tipos de dados |
URIs de nuvem |
Observação
O suporte ao Iceberg descreve tabelas gravadas pelo Databricks usando o Delta Lake, mas com leituras do Iceberg (UniForm) ativadas.
Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:
Venda automática de credenciais do Unity Catalog
A venda de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar privilégios nos dados controlados pela Databricks. Consulte a venda de credenciais do Unity Catalog para acesso externo ao sistema.
Leia as tabelas com os clientes da Iceberg
A Databricks fornece aos clientes do Iceberg suporte somente leitura para tabelas registradas no Unity Catalog. Os clientes compatíveis incluem o Apache Spark, o Apache Flink, o Trino e o Snowflake. Consulte Ler tabelas do Databricks de clientes do Iceberg.
Ler e gravar tabelas Delta externas
O senhor pode acessar tabelas externas do Unity Catalog com suporte do Delta Lake a partir de clientes externos de leitura e gravação do Delta Lake usando credenciais e URIs de armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
Observação
A documentação da Databricks lista as limitações e considerações de compatibilidade com base nas versões da Databricks Runtime e no recurso de plataforma. O senhor deve confirmar quais protocolos de leitura e gravação e recursos de tabela são compatíveis com o seu cliente. Veja delta.io.
Acesse dados tabulares que não são do Delta Lake com tabelas externas
As tabelas externas do Unity Catalog suportam muitos formatos além do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos na nuvem especificado por um URI na nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
A leitura e a gravação em tabelas externas de vários sistemas podem levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.
O Unity Catalog pode não pegar novas partições gravadas em tabelas externas com suporte de formatos diferentes do Delta Lake. A Databricks recomenda a execução regular do site MSCK REPAIR TABLE table_name
para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.
Acesse dados não tabulares com volumes externos
A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Consulte O que são volumes do Unity Catalog?
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
O Volumes fornece APIs, SDKs e outras ferramentas para obter e colocar arquivos em volumes. Consulte gerenciar arquivos em volumes.
Observação
Delta Sharing permite que o senhor compartilhe volumes com outras contas Databricks, mas não se integra a sistemas externos.