Carregar uso de dados para o local externo do Unity Catalog

Visualização

Este recurso está em visualização pública.

Este artigo descreve como usar a IU de adição de dados para criar uma tabela de gerenciamento a partir de dados no Google Cloud Storage usando um local externo do Unity Catalog. Um local externo é um objeto que combina um caminho de armazenamento clouds com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento clouds .

Para outras abordagens para carregar locais externos de uso de dados, consulte Criar uma tabela de arquivos armazenados em seu locatário de nuvem.

Antes de começar

Antes de começar, você deve ter o seguinte:

Tipos de arquivo

Os seguintes tipos de arquivo são suportados:

  • CSV

  • TSV

  • JSON

  • XML

  • AVRO

  • PARQUET

passo 1: Confirme o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

  1. Na barra lateral do seu workspace do Databricks, clique em Catálogo.

  2. No Catalog Explorer, clique em Dados Externos > Locais Externos.

passo 2: Criar a tabela gerencia

Para criar a tabela gerenciador, faça o seguinte:

  1. Na barra lateral do seu workspace, clique em + Novo > Adicionar dados.

  2. Na IU para adicionar dados, clique em Google Cloud Storage.

  3. Selecione um local externo na lista suspensa.

  4. Selecione as pastas e os arquivos que deseja carregar no Databricks e clique em Visualizar tabela.

  5. Selecione um catálogo e um esquema nas listas suspensas.

  6. (Opcional) Edite o nome da tabela.

  7. (Opcional) Para definir opções avançadas de formato por tipo de arquivo, clique em Atributos avançados, desative Detectar tipo de arquivo automaticamente e selecione um tipo de arquivo.

    Para obter uma lista de opções de formato, consulte a seção a seguir.

  8. (Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

    Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres Unicode (como emojis).

  9. (Opcional) Para editar os tipos de coluna, clique no ícone com o tipo.

  10. Clique em Criar tabela.

Opções de formato de tipo de arquivo

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção de formato

Descrição

Tipos de arquivo suportados

Column delimiter

O caractere separador entre as colunas. Apenas um único caractere é permitido e a barra invertida não é suportada.

O default é uma vírgula.

CSV

Escape character

O caractere de escape a ser usado ao analisar os dados.

O default é uma aspa.

CSV

First row contains the header

Esta opção especifica se o arquivo contém um cabeçalho.

Ativado por default.

CSV

Automatically detect file type

Detecta automaticamente o tipo de arquivo. default é true.

XML

Automatically detect column types

Detecte automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como false, todos os tipos de coluna serão inferidos como strings.

Ativado por default.

  • CSV

  • JSON

  • XML

Rows span multiple lines

Se o valor de uma coluna pode abranger várias linhas no arquivo.

Desativado por default.

  • CSV

  • JSON

Merge the schema across multiple files

Se deve inferir o esquema em vários arquivos e merge o esquema de cada arquivo.

Ativado por default.

CSV

Allow comments

Se comentários são permitidos no arquivo.

Ativado por default.

JSON

Allow single quotes

Se as aspas simples são permitidas no arquivo.

Ativado por default.

JSON

Infer timestamp

Se deve tentar inferir strings de carimbo de data/hora como TimestampType.

Ativado por default.

JSON

Rescued data column

Se as colunas que não correspondem ao esquema devem ser salvas. Para obter mais informações, consulte O que é a coluna de dados resgatados?.

Ativado por default.

  • CSV

  • JSON

  • AVRO

  • PARQUET

Exclude attribute

Se o senhor deve excluir atributos em elementos. default é false.

XML

Attribute prefix

O prefixo dos atributos para diferenciar atributos e elementos. default é _.

XML

Tipos de dados da coluna

Os seguintes tipos de dados de coluna são suportados. Para obter mais informações sobre tipos de dados individuais, consulte tipos de dados SQL.

Tipo de dados

Descrição

BIGINT

Números inteiros assinados de 8 bytes.

BOOLEAN

Valores Boolean (true, false).

DATE

e dia, sem fuso horário.

DECIMAL (P,S)

Números com precisão máxima P e escala fixa S.

DOUBLE

Números de ponto flutuante de precisão dupla de 8 bytes.

STRING

Valores strings de caracteres.

TIMESTAMP

Valores que compreendem os valores dos campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

  • Você pode ter problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma key contendo crase ou dois pontos.

  • Alguns arquivos JSON podem exigir que você selecione JSON manualmente para o tipo de arquivo. Para selecionar manualmente um tipo de arquivo depois de selecionar os arquivos, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione JSON.

  • Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.