Obtenha identificadores para objetos do workspace

Este artigo explica como obter identificadores e URLs de workspace, cluster, diretório, modelo, notebook e trabalho no Databricks.

Nomes de instâncias, URLs e IDs de espaço de trabalho

Um nome de instância é atribuído a cada implantação do Databricks. Para segregar a carga de trabalho e conceder acesso somente aos usuários relevantes, geralmente os clientes da Databricks criam instâncias separadas para desenvolvimento, preparação e produção. O nome da instância é a primeira parte da URL quando você faz login na implantação do Databricks:

Workspace

Nesse caso, o nome da instância é 8757561887652360.0.gcp.databricks.com.

Um workspace do Databricks é onde a plataforma Databricks é executada e onde você pode criar clusters Spark e agendar cargas de trabalho. Alguns tipos de workspace têm um ID de workspace exclusivo. Se houver o= na URL de implantação, por exemplo, https://<databricks-instance>/?o=6280049833385130, o número aleatório após o= é a ID do workspace do Databricks. Aqui, o ID do workspace é 6280049833385130. Se não houver o= na URL de implantação, a ID do workspace será 0.

URL e ID do cluster

Um cluster do Databricks fornece uma plataforma unificada para vários casos de uso, como execução de pipelines ETL de produção, análise de transmissão, análise ad-hoc e machine learning. Cada cluster tem um ID exclusivo chamado ID de cluster. Isso se aplica a clusters multifuncionais e de trabalho. Para obter os detalhes de um cluster usando a API REST, o ID do cluster é essencial.

Para obter o ID do cluster, clique na aba Clusters na barra lateral e selecione o nome do cluster. O ID do cluster é o número após o componente /clusters/ no URL desta página

https://<databricks-instance>/#/setting/clusters/<cluster-id>

Na captura de tela a seguir, o ID clusters é 0206-231114-irony170.

URL do cluster

URL e ID do Notebook

Um notebook é uma interface baseada na web de um documento que contém código executável, visualizações e texto narrativo. Notebooks são interfaces para interagir com o Databricks. Cada notebook possui uma ID exclusiva. O URL do notebook tem o ID do notebook, portanto o URL do notebook é exclusivo de um notebook. Ele pode ser compartilhado com qualquer pessoa na plataforma Databricks com permissão para visualizar e editar o notebook. Além disso, cada comando de notebook (célula) tem um URL diferente.

Para encontrar um URL ou uma ID de um notebook, abra o notebook. Para encontrar a URL de uma célula, clique no conteúdo do comando.

  • Exemplo de URL de notebook:

    https://8757561887652360.0.gcp.databricks.com/?o=8757561887652360#notebook/1451020452210597`
    
  • Exemplo de ID de notebook: 1451020452210597.

  • Exemplo de URL de comando (célula):

    https://8757561887652360.0.gcp.databricks.com/?o=8757561887652360#notebook/1451020452210597/command/1451020452210598
    

ID da pasta

Uma pasta é um diretório usado para armazenar arquivos que podem ser usados no espaço de trabalho do Databricks. Esses arquivos podem ser Notebook, bibliotecas ou subpastas. Há um ID específico associado a cada pasta e a cada subpasta individual. A API de permissões refere-se a esse id como um directory_id e é usado na configuração e atualização de permissões para uma pasta.

Para recuperar o directory_id, use a API do workspace:

curl -n -X GET -H 'Content-Type: application/json' -d '{"path": "/Users/me@example.com/MyFolder"}' \
https://<databricks-instance>/api/2.0/workspace/get-status

Este é um exemplo da resposta de chamada da API:

{
  "object_type": "DIRECTORY",
  "path": "/Users/me@example.com/MyFolder",
  "object_id": 123456789012345
}

ID do modelo

Um modelo refere-se a um modelo registrado no MLflow, o que permite que o senhor gerencie modelos MLflow em produção por meio de transição de estágio e versionamento. O ID do modelo registrado é necessário para alterar as permissões no modelo de forma programática por meio da API de permissões.

Para obter o ID de um modelo registrado, você pode usar o endpoint mlflow/databricks/registered-models/get da API do Workspace. Por exemplo, o código a seguir retorna o objeto de modelo registrado com suas propriedades, incluindo sua ID:

curl -n -X GET -H 'Content-Type: application/json' -d '{"name": "model_name"}' \
https://<databricks-instance>/api/2.0/mlflow/databricks/registered-models/get

O valor retornado tem o formato:

{
  "registered_model_databricks": {
    "name":"model_name",
    "id":"ceb0477eba94418e973f170e626f4471"
  }
}

URL e ID do job

Um trabalho é uma forma de executar um notebook ou JAR imediatamente ou de forma programada.

Para obter um URL Job , clique em Ícone de jobs fluxo de trabalho na barra lateral e clique no nome de um Job . A ID Job está após o texto #job/ na URL. A URL Job é necessária para solucionar a causa raiz da falha na execução Job .

Na captura de tela a seguir, o URL Job é

https://8757561887652360.0.gcp.databricks.com/?o=8757561887652360#job/2

Neste exemplo, o ID Job é 2.

URL do job