Carregar uso de dados em Unity Catalog local externo

Visualização

Esse recurso está em pré-visualização pública.

Este artigo descreve como usar a UI de adição de dados para criar uma tabela gerenciar a partir de dados em Google Cloud Storage usando um local externo Unity Catalog. Um local externo é um objeto que combina um caminho de armazenamento cloud com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento cloud.

Antes de começar

Antes de começar, você deve ter o seguinte:

Um workspace com Unity Catalog ativado. Para obter mais informações, consulte Configurar e gerenciar Unity Catalog.
O privilégio READ FILES no local externo. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento cloud a Databricks.
O privilégio CREATE TABLE no esquema no qual você deseja criar a tabela gerenciar, o privilégio USE SCHEMA no esquema e o privilégio USE CATALOG no catálogo pai. Para obter mais informações, consulte Privilégios do Unity Catalog e objetos protegíveis.

Tipos de arquivo

Os seguintes tipos de arquivo são suportados:

passo 1: Confirme o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

Na barra lateral do site Databricks workspace, clique em Catalog (Catálogo).
No Catalog Explorer, clique em Dados externos > Localizações externas.

passo 2: Criar a tabela gerencia

Para criar a tabela gerenciar, faça o seguinte:

Na barra lateral do site workspace, clique em + New > Add data( Novo > Adicionar dados).
Na interface do usuário para adicionar dados, clique em Google Cloud Storage.
Selecione um local externo na lista suspensa.
Selecione as pastas e os arquivos que deseja carregar no Databricks e clique em Preview table (Visualizar tabela).
Selecione um catálogo e um esquema nas listas suspensas.
(Opcional) Mude o nome da tabela.
(Opcional) Para definir opções avançadas de formato por tipo de arquivo, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione um tipo de arquivo.

Para obter uma lista de opções de formato, consulte a seção a seguir.
(Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres Unicode (como emojis).
(Opcional) Para editar os tipos de coluna, clique no ícone com o tipo.
Clique em Criar tabela.

Opções de formato do tipo de arquivo

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção de formato	Descrição	Tipos de arquivo compatíveis
`Column delimiter`	O caractere separador entre as colunas. Somente um único caractere é permitido e a barra invertida não é suportada. O endereço default é uma vírgula.	CSV
`Escape character`	O caractere de escape a ser usado ao analisar os dados. O default é uma aspa.	CSV
`First row contains the header`	Essa opção especifica se o arquivo contém um cabeçalho. Habilitado por default.	CSV
`Automatically detect file type`	Detecte automaticamente o tipo de arquivo. O padrão é `true`.	XML
`Automatically detect column types`	Detecte automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como strings. Habilitado por default.	CSV JSON XML
`Rows span multiple lines`	Se o valor de uma coluna pode abranger várias linhas no arquivo. Desativado por default.	CSV JSON
`Merge the schema across multiple files`	Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitado por default.	CSV
`Allow comments`	Se os comentários são permitidos no arquivo. Habilitado por default.	JSON
`Allow single quotes`	Se aspas simples são permitidas no arquivo. Habilitado por default.	JSON
`Infer timestamp`	Se o senhor deve tentar inferir o registro de data e hora strings como `TimestampType`. Habilitado por default.	JSON
`Rescued data column`	Se deseja salvar colunas que não correspondam ao esquema. Para obter mais informações, consulte O que é a coluna de dados resgatada? Habilitado por default.	CSV JSON AVRO PARQUET
`Exclude attribute`	Se deve excluir atributos em elementos. O padrão é `false`.	XML
`Attribute prefix`	O prefixo dos atributos para diferenciar atributos e elementos. O padrão é `_`.	XML

Tipos de dados de coluna

Os seguintes tipos de dados de coluna são suportados. Para obter mais informações sobre tipos de dados individuais, consulte SQL data types.

Tipo de dados	Descrição
`BIGINT`	Números inteiros de 8 bytes com valor positivo ou negativo.
`BOOLEAN`	Valores Boolean (`true`, `false`).
`DATE`	e dia, sem fuso horário.
`DECIMAL (P,S)`	Números com precisão máxima `P` e escala fixa `S`.
`DOUBLE`	Números de ponto flutuante de 8 bytes com precisão dupla.
`STRING`	Valores da string do caractere.
`TIMESTAMP`	Valores que incluem os valores dos campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

O senhor pode ter problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com um key contendo um backtick ou dois pontos.
Alguns arquivos JSON podem exigir que o senhor selecione manualmente JSON para o tipo de arquivo. Para selecionar manualmente um tipo de arquivo depois de selecionar os arquivos, clique em Advanced attributes (Atributos avançados), desative a opção Automatically detect file type (Detectar automaticamente o tipo de arquivo) e selecione JSON.
Carimbos de data/hora e decimais aninhados dentro de tipos complexos podem encontrar problemas.