Crie ou modifique uma tabela usando o upload de arquivos

A página Criar ou modificar uma tabela usando upload de arquivo permite que você carregue arquivos CSV, TSV ou JSON, Avro, Parquet ou arquivos de texto para criar ou substituir uma tabela de gerenciamento do Delta Lake.

Você pode criar tabelas gerenciadas pelo Delta no Unity Catalog ou no Hive metastore.

Importante

Você pode usar a IU para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet ou de texto de sua máquina local.

  • A página Criar ou modificar uma tabela usando upload de arquivo suporta o upload de até 10 arquivos por vez.

  • O tamanho total dos arquivos upload deve ser inferior a 2 gigabytes.

  • O arquivo deve ser CSV, TSV, JSON, Avro, Parquet ou arquivo de texto e ter a extensão “.csv”, “.tsv” (ou “.tab”), “.json”, “.avro”, “ .parquet” ou “.txt”.

  • Arquivos compactados como arquivos zip e tar não são compatíveis.

Fazer upload do arquivo

  1. Clique Novo ícone Novo > Adicionar dados.

  2. Clique em Criar ou modificar uma tabela.

  3. Clique no botão do navegador de arquivos ou arraste e solte os arquivos diretamente na zona para soltar.

Observação

Os arquivos importados são carregados para um local interno seguro em sua conta, que é coletado diariamente.

Visualizar, configurar e criar uma tabela

É possível carregar dados para a área de preparação sem se conectar aos recursos de computação, mas é necessário selecionar um recurso de computação ativo para visualizar e configurar sua tabela.

Você pode visualizar 50 linhas de seus dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista sob o nome do arquivo para o esquema que as engloba.

O Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema que os contém. Você precisa de permissões adequadas para criar uma tabela em um esquema.

Selecione o esquema desejado para criar uma tabela fazendo o seguinte:

  1. Selecione um esquema.

  2. (Opcional) Mude o nome da tabela.

Observação

Você pode usar o menu suspenso para selecionar Overwrite existing table (Substituir tabela existente) ou Create new table (Criar nova tabela). As operações que tentam criar novas tabelas com conflitos de nome exibem uma mensagem de erro.

Você pode configurar opções ou colunas antes de criar a tabela.

Para criar a tabela, clique em Criar na parte rodapé da página.

Opções de formato

As opções de formato dependem do formato do arquivo que você envia. Opções de formato comum aparecem na barra de cabeçalho, enquanto opções menos usadas estão disponíveis na caixa de diálogo Atributos avançados.

  • Para CSV, as seguintes opções estão disponíveis:

    • A primeira linha contém o cabeçalho (ativado por padrão): esta opção especifica se o arquivo CSV/TSV contém um cabeçalho.

    • Delimitador de coluna: o caractere separador entre as colunas. Somente um único caractere é permitido, e não há suporte para barra invertida. O padrão é vírgula para arquivos CSV.

    • Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como STRING.

    • As linhas abrangem múltiplas linhas (desativado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.

    • Mesclar o esquema em vários arquivos: se deseja inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desativado, o esquema de um arquivo será usado.

  • Para JSON, as seguintes opções estão disponíveis:

    • Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como STRING.

    • As linhas abrangem múltiplas linhas (habilitado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.

    • Permitir comentários (ativado por padrão): se os comentários são permitidos no arquivo.

    • Permitir aspas simples (habilitado por padrão): se aspas simples são permitidas no arquivo.

    • Inferir marca temporal (habilitado por padrão): se deve tentar inferir strings de marco temporal como TimestampType.

  • Para JSON, as seguintes opções estão disponíveis:

    • Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como STRING.

    • As linhas abrangem múltiplas linhas (desativado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.

    • Permitir comentários Se comentários são permitidos no arquivo.

    • Permitir aspas simples: se aspas simples são permitidas no arquivo.

    • Inferir carimbo de data/hora: se deve tentar inferir strings de carimbo de data/hora como TimestampType.

A visualização de dados é atualizada automaticamente quando você edita as opções de formato.

Observação

Ao fazer upload de vários arquivos, as seguintes regras se aplicam:

  • As configurações do cabeçalho se aplicam a todos os arquivos. Certifique-se de que os cabeçalhos estejam consistentemente ausentes ou presentes em todos os arquivos enviados para evitar perda de dados.

  • Os arquivos carregados são combinados anexando todos os dados como linhas na tabela de destino. Não há suporte para ingressar ou mesclar registros durante o carregamento de arquivos.

Nomes e tipos de colunas

Você pode editar os nomes e tipos de coluna.

  • Para editar tipos, clique no ícone com o tipo.

    Observação

    Você não pode editar tipos aninhados para STRUCT ou ARRAY.

  • Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

    Os nomes das colunas não aceitam vírgulas, barras invertidas ou caracteres Unicode (como emojis).

Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como do tipo STRING desativando Atributos avançados > Detectar tipos de coluna automaticamente.

Observação

  • A inferência do esquema faz uma melhor detecção de esforço dos tipos de coluna. Alterar os tipos de coluna pode levar a alguns valores sendo convertidos em NULL se o valor não puder ser convertido corretamente para o tipo de dados de destino. A conversão de BIGINT para DATE ou TIMESTAMP colunas não é suportada. O Databricks recomenda que você crie uma tabela primeiro e depois transforme essas colunas usando funções SQL.

  • Para permitir nomes de colunas de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando upload de arquivo utiliza o Column Mapping.

  • Para adicionar comentários às colunas, crie a tabela e navegue até o Catalog Explorer , onde você pode adicionar comentários.

Tipos de dados compatíveis

A página Criar ou modificar uma tabela utilizando transferência de arquivo é compatível com os seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.

Tipo de dados

Descrição

BIGINT

Números inteiros de 8 bytes com valor positivo ou negativo.

BOOLEAN

Valores Boolean (true, false).

DATE

Valores que compreendem valores de campos ano, mês e dia, sem um fuso horário.

DOUBLE

Números de ponto flutuante de 8 bytes com precisão dupla.

STRING

Valores da string do caractere.

TIMESTAMP

Valores que incluem os valores dos campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

STRUCT

Valores com a estrutura descrita por uma sequência de campos.

ARRAY

Valores que compreendem uma sequência de elementos com o tipo elementType.

DECIMAL(P,S)

Números com precisão máxima P e escala fixa S.

Problemas conhecidos

A transmissão BIGINT para tipos não conversíveis, como DATE, como datas no formato 'aaaa', pode desencadear erros.