Configuração de computação para o Databricks Connect

Observação

Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Neste artigo, o senhor configura as propriedades para estabelecer uma conexão entre Databricks Connect e seu Databricks cluster ou serverless compute. Estas informações se aplicam às versões Python e Scala do site Databricks Connect, salvo indicação em contrário.

O Databricks Connect permite conectar IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Requisitos

Para configurar uma conexão com Databricks compute, o senhor deve ter:

Databricks Connect instalado. Para obter os requisitos de instalação e os passos para versões de idiomas específicos do Databricks Connect, consulte:
A Databricks account e workspace que têm Unity Catalog ativado. Consulte Configurar e gerenciar Unity Catalog e Habilitar um workspace para Unity Catalog.
A Databricks cluster com Databricks Runtime 13.3 LTS ou acima.
A versão Databricks Runtime do seu cluster deve ser igual ou superior à versão do pacote Databricks Connect. A Databricks recomenda que o senhor use o pacote mais recente do Databricks Connect que corresponda à versão do Databricks Runtime. Para usar os recursos que estão disponíveis em versões posteriores do Databricks Runtime, o senhor deve atualizar o pacote Databricks Connect. Consulte o site Databricks Connect notas sobre a versão para obter uma lista das versões disponíveis em Databricks Connect. Para obter notas sobre a versão Databricks Runtime, consulte Databricks Runtime notas sobre a versão versões e compatibilidade.
Os clusters devem usar um modo de acesso de clusters Atribuído ou Compartilhado. Consulte Modos de acesso.

Configuração

Antes de começar, você precisa do seguinte:

Se o senhor estiver se conectando a um cluster, o ID do cluster. O senhor pode recuperar o ID do cluster a partir do URL. Consulte URL e ID do cluster.
O nome da instância do espaço de trabalho do Databricks. Esse é o valor do nome do host do servidor para o seu compute. Consulte Obter detalhes da conexão para um recurso de computação do Databricks.
Quaisquer outras propriedades que sejam necessárias para o tipo de autenticação do Databricks que o senhor deseja usar.

Observação

OAuth A autenticação usuário-máquina (U2M) e a OAuth autenticação máquina-máquina (M2M) são suportadas em Databricks SDK para Python 0.19.0 e acima. Atualize a versão instalada do seu projeto de código do Databricks SDK para Python para 0.19.0 ou acima para usar a autenticação OAuth U2M ou M2M. Veja Get começar com o Databricks SDK para Python.

Para a autenticação OAuth U2M, o senhor deve usar o Databricks CLI para se autenticar antes de executar o código Python. Veja o tutorial.
A autenticação de credenciais da nuvem do Google e a autenticação de ID da nuvem do Google são compatíveis com Databricks SDK para Python 0.14.0 e acima. Atualize a versão instalada do seu projeto de código do Databricks SDK para Python para 0.14.0 ou acima para usar a autenticação de credenciais de nuvem do Google ou a autenticação de ID. Veja Get começar com o Databricks SDK para Python.

Configurar uma conexão com um cluster

Há várias maneiras de configurar a conexão com seu cluster. O Databricks Connect procura as propriedades de configuração na seguinte ordem e usa a primeira configuração que encontrar. Para obter informações sobre configurações avançadas, consulte Uso avançado do Databricks Connect para Python.

O método remote () da classe DataBricksSession.
Um perfil de configuração do Databricks
A variável de ambiente DATABRICKS_CONFIG_PROFILE
Uma variável de ambiente para cada propriedade de configuração
Um perfil de configuração Databricks denominado default

O método `remote()` da classe `DatabricksSession`

Para essa opção, que se aplica somente à autenticaçãoDatabricks personal access token , especifique o nome da instância workspace, o Databricks personal access token e o ID do cluster.

Você pode inicializar a classe DatabricksSession de várias maneiras:

Defina os campos host, token e cluster_id em DatabricksSession.builder.remote().
Use a classe Config do SDK da Databricks.
Especifique um perfil de configuração do Databricks junto com o campo cluster_id.

Em vez de especificar essas propriedades de conexão no código, o site Databricks recomenda configurar as propriedades por meio de variáveis de ambiente ou arquivos de configuração, conforme descrito ao longo desta seção. Os exemplos de código a seguir pressupõem que o senhor forneça alguma implementação das funções propostas em retrieve_* para obter as propriedades necessárias do usuário ou de algum outro armazenamento de configuração, como o Google Cloud Secret Manager.

O código para cada uma dessas abordagens é o seguinte:

# Set the host, token, and cluster_id fields in DatabricksSession.builder.remote.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.remote(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
).getOrCreate()

// Set the host, token, and clusterId fields in DatabricksSession.builder.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder()
    .host(retrieveWorkspaceInstanceName())
    .token(retrieveToken())
    .clusterId(retrieveClusterId())
    .getOrCreate()

# Use the Databricks SDK's Config class.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

// Use the Databricks SDK's Config class.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setHost(retrieveWorkspaceInstanceName())
    .setToken(retrieveToken())
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

# Specify a Databricks configuration profile along with the `cluster_id` field.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

Um perfil de configuração do Databricks

Para essa opção, crie ou identifique um perfil de configuração do Databricks que contenha o campo cluster_id e quaisquer outros campos que sejam necessários para o tipo de autenticação do Databricks que o senhor deseja usar.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks pessoal access token autenticação: host e token.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais de nuvem do Google (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host google_service_acccounte.

Em seguida, defina o nome desse perfil de configuração por meio da classe de configuração.

Você pode especificar cluster_id de duas maneiras:

Inclua o campo cluster_id em seu perfil de configuração e, em seguida, especifique o nome do perfil de configuração.
Especifique o nome do perfil de configuração junto com o campo cluster_id.

Se o senhor já tiver definido a variável de ambiente DATABRICKS_CLUSTER_ID com o ID do cluster, não precisará especificar também cluster_id.

O código para cada uma dessas abordagens é o seguinte:

# Include the cluster_id field in your configuration profile, and then
# just specify the configuration profile's name:
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

// Include the cluster_id field in your configuration profile, and then
// just specify the configuration profile's name:
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
    val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .getOrCreate()

# Specify the configuration profile name along with the cluster_id field.
# In this example, retrieve_cluster_id() assumes some custom implementation that
# you provide to get the cluster ID from the user or from some other
# configuration store:
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Para essa opção, crie ou identifique um perfil de configuração do Databricks que contenha o campo cluster_id e quaisquer outros campos que sejam necessários para o tipo de autenticação do Databricks que o senhor deseja usar.

Se o senhor já tiver definido a variável de ambiente DATABRICKS_CLUSTER_ID com o ID do cluster, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks pessoal access token autenticação: host e token.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais de nuvem do Google (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host google_service_acccounte.

Defina a variável de ambiente DATABRICKS_CONFIG_PROFILE com o nome desse perfil de configuração. Em seguida, inicialize a classe DatabricksSession:

from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Uma variável de ambiente para cada propriedade de configuração

Para essa opção, defina a variável de ambiente DATABRICKS_CLUSTER_ID e qualquer outra variável de ambiente que seja necessária para o tipo de autenticaçãoDatabricks que o senhor deseja usar.

A variável de ambiente necessária para cada tipo de autenticação é a seguinte:

Para Databricks pessoal access token autenticação: DATABRICKS_HOST e DATABRICKS_TOKEN.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): DATABRICKS_HOST, DATABRICKS_CLIENT_ID, DATABRICKS_CLIENT_SECRET.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): DATABRICKS_HOST.
Para autenticação de credenciais de nuvem do Google (quando compatível): DATABRICKS_HOST e GOOGLE_CREDENTIALS.
Para autenticação do Google Cloud ID (quando compatível): DATABRICKS_HOST GOOGLE_SERVICE_ACCOUNTe.

Em seguida, inicialize a classe DatabricksSession:

from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Um perfil de configuração do Databricks chamado `DEFAULT`

Para essa opção, crie ou identifique um perfil de configuração do Databricks que contenha o campo cluster_id e quaisquer outros campos que sejam necessários para o tipo de autenticação do Databricks que o senhor deseja usar.

Se o senhor já tiver definido a variável de ambiente DATABRICKS_CLUSTER_ID com o ID do cluster, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks pessoal access token autenticação: host e token.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais de nuvem do Google (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host google_service_acccounte.

Nomeie esse perfil de configuração como DEFAULT.

Em seguida, inicialize a classe DatabricksSession:

from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Configurar uma conexão com a computação sem servidor

Prévia

Esse recurso está em Pré-lançamento público.

Databricks Connect para Python suporta a conexão com serverless compute. Para usar esse recurso, é necessário atender aos requisitos de conexão com o serverless. Consulte os requisitos.

Importante

Esse recurso tem as seguintes limitações:

Esse recurso é compatível apenas com o Databricks Connect for Python.
Todas as limitações do Databricks Connect for Python
Todas as limitações da computação sem servidor
Somente as dependências Python incluídas como parte do ambiente serverless compute podem ser usadas para UDFs. Consulte Versões do ambiente sem servidor. Dependências adicionais não podem ser instaladas.
Não há suporte para UDFs com módulos personalizados.

O senhor pode configurar uma conexão com serverless compute de uma das seguintes maneiras:

Defina a variável de ambiente local DATABRICKS_SERVERLESS_COMPUTE_ID como auto. Se essa variável de ambiente for definida, o Databricks Connect ignorará o endereço cluster_id.
Em um perfil de configuração local do Databricks, defina serverless_compute_id = auto e, em seguida, faça referência a esse perfil em seu código.
```
[DEFAULT]
host = https://my-workspace.cloud.databricks.com/
serverless_compute_id = auto
token = dapi123...
```
Ou use uma das seguintes opções:

from databricks.connect import DatabricksSession as SparkSession

spark = DatabricksSession.builder.serverless(True).getOrCreate()

from databricks.connect import DatabricksSession as SparkSession

spark = DatabricksSession.builder.remote(serverless=True).getOrCreate()

Observação

A sessão serverless compute é encerrada após 10 minutos de inatividade. Depois disso, uma nova sessão Spark deve ser criada usando getOrCreate() para se conectar a serverless compute.

Validar a conexão com o Databricks

Para validar seu ambiente, as credenciais do default e a conexão com o compute estão configuradas corretamente para o Databricks Connect, execute o comando databricks-connect test, que falha com um código de saída diferente de zero e uma mensagem de erro correspondente quando detecta qualquer incompatibilidade na configuração.

databricks-connect test

Em Databricks Connect 14.3 e acima, o senhor também pode validar seu ambiente usando validateSession():

DatabricksSession.builder.validateSession(True).getOrCreate()

Desativando o Databricks Connect

O serviço Databricks Connect (e o Spark Connect subjacente) pode ser desabilitado em qualquer clusters.

Para desativar o serviço Databricks Connect, defina a seguinte configuração do Spark nos clusters.

spark.databricks.service.server.enabled false

Configuração de computação para o Databricks Connect

Requisitos

Configuração

Configurar uma conexão com um cluster

O método remote() da classe DatabricksSession

Um perfil de configuração do Databricks

A variável de ambiente DATABRICKS_CONFIG_PROFILE

Uma variável de ambiente para cada propriedade de configuração

Um perfil de configuração do Databricks chamado DEFAULT

Configurar uma conexão com a computação sem servidor

Validar a conexão com o Databricks

Desativando o Databricks Connect

O método `remote()` da classe `DatabricksSession`

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Um perfil de configuração do Databricks chamado `DEFAULT`