datasetde amostra
Há uma variedade de conjuntos de dados de amostra fornecidos pelo site Databricks e disponibilizados por terceiros que o senhor pode usar no seu Databricks workspace.
Unity Catalog dataset
Unity Catalog fornece acesso a vários conjuntos de dataset de amostra no catálogo samples
. É possível revisar esses dataset na IU do Catalog Explorer e referenciá-los diretamente em um Notebook ou no editor SQL usando o padrão <catalog-name>.<schema-name>.<table-name>
.
O esquema nyctaxi
(também conhecido como banco de dados) contém a tabela trips
, que contém detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros desta tabela:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
O esquema tpch
contém dados do benchmark TPC-H. Para listar as tabelas neste esquema, execute:
SHOW TABLES IN samples.tpch
dataset de amostra de terceiros em formato CSV
O Databricks integrou ferramentas para upload rapidamente dataset de amostra de terceiros como arquivos de valores separados por vírgula (CSV) no workspace do Databricks. Alguns dataset de amostra populares de terceiros disponíveis em formato CSV:
datasetde amostra |
Para downloads o dataset de amostra como um arquivo CSV… |
|
---|---|---|
Na página Dados , clique em Dados do parque, Dados do esquilo ou Histórias. |
||
No repositório GitHub, clique na pasta dataset . Clique na subpasta que contém o dataset de destino e, em seguida, clique no arquivo CSV do dataset . |
||
Na página de resultados da pesquisa, clique no resultado da pesquisa alvo e, ao lado do ícone CSV , clique em downloads. |
||
Na dataset página do , na Dados tab, na Dados tab, ao lado de diamantes.csv, clique no ícone downloads . |
||
Duração da viagem de táxi em Nova York (requer uma conta Kaggle ) |
Na dataset página do , na Dados tab, ao lado de sample_submission.zip, clique no ícone downloads . Para encontrar os arquivos CSV do dataset , extraia o conteúdo do arquivo ZIP downloads . |
Para usar dataset de exemplo de terceiros em seu workspace do Databricks, faça o seguinte:
Siga as instruções de terceiros para downloads o dataset como um arquivo CSV para sua máquina local.
Faça o upload do arquivo CSV de seu computador local para o Databricks workspace.
Para trabalhar com o uso de dados importados Databricks SQL para consultar os dados. Ou você pode usar um Notebook para carregar os dados como um DataFrame.
dataset de amostra de terceiros na biblioteca
Alguns terceiros incluem dataset de amostra na biblioteca, como pacote Python Index (PyPI) ou pacote Comprehensive R Archive Network (CRAN) . Para mais informações consulte a documentação do fornecedor da biblioteca.
Para instalar uma biblioteca em clusters do Databricks usando a interface do usuário clusters , consulte bibliotecasclusters .
Para instalar uma biblioteca Python usando um Databricks Notebook, consulte Bibliotecas Python com escopoNotebook.
Para instalar uma biblioteca R usando um Databricks Notebook, consulte Bibliotecas R com escopoNotebook.
Databricks conjunto de dados (databricks-dataset) montado no DBFS
Databricks recomenda não usar o armazenamento de objetos DBFS e cloud montado para a maioria dos casos de uso no espaço de trabalho Databricks habilitado para o Unity Catalog. Alguns exemplos de conjuntos de dados montados para DBFS estão disponíveis em Databricks
Observação
A disponibilidade e localização do dataset Databricks estão sujeitas a alterações sem aviso prévio.
Navegue pelo conjunto de dados DBFS montado Databricks
Para navegar por esses arquivos de um Notebook Python, Scala ou R, você pode usar a referência do Databricks russálias (dbutils). O código a seguir lista todos os dataset Databricks disponíveis.
display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"