execução shell comando em Databricks terminal web
O terminal da Web Databricks oferece uma maneira conveniente e altamente interativa de executar o comando shell em uma interface de linha de comando (CLI), incluindo Databricks CLI comando, para executar ações em objetos Databricks de forma programática. É especialmente útil para casos de uso avançado, como lotes de operações em vários arquivos, que as interfaces de usuário (UIs) existentes podem não suportar totalmente.
Vários usuários podem usar o terminal da Web em um único compute.
O senhor pode usar o terminal da Web para fazer o seguinte:
Faça edições rápidas de arquivos usando o Vim ou o Emacs.
Monitore o uso de recursos com comandos como
htop
(uso decluster ) ounvidia-smi
(uso de GPU).execução nãoSpark Python scripts.
Execute operações de arquivo com o comando shell, como
mv
emkdir
.Instalar e gerenciar biblioteca em compute.
Use a CLI do Databricks para automatizar vários aspectos do Databricks.
Requisitos
Aviso
Databricks faz proxy do serviço de terminal da Web a partir da porta 7681 no driver compute's Spark. Esse proxy da Web destina-se a ser usado somente com o terminal da Web. Se a porta estiver ocupada quando o compute começar ou se houver algum tipo de conflito, o terminal da Web poderá não funcionar como esperado. Se outros serviços da Web forem iniciados na porta 7681, os usuários do compute poderão ser expostos a possíveis explorações de segurança. Databricks não se responsabiliza por quaisquer problemas resultantes da instalação de um software não suportado em um compute.
O terminal da Web é desativado pelo default para todos os usuários do workspace. Para ativá-lo, consulte Ativar o terminal da Web.
O senhor pode anexar a permissão em um compute.
O site compute deve usar um modo de acesso de usuário único ou sem isolamento compartilhado. Para Databricks Runtime 15.1 e acima, também há suporte para um modo de acesso definido como Compartilhado.
Inicie o terminal web
O senhor pode iniciar o terminal da Web na página de detalhes compute ou em um site Notebook.
De um Notebook
Para iniciar o terminal da Web em um site Notebook:
Conecte o site Notebook a compute.
Na parte inferior da barra lateral direita do site Notebook, clique no ícone Abrir painel inferior .
Como alternativa, clique no menu suspenso compute anexado, passe o mouse sobre o compute anexado e clique em Web Terminal.
O terminal da Web é aberto em um painel na parte inferior da tela. Os botões no canto superior direito do painel permitem que o senhor
Abra uma nova sessão de terminal em uma nova tab .
Recarregar uma sessão de terminal .
Feche o painel inferior . Para reabrir o painel, clique em na parte inferior da barra lateral direita.
Na página de detalhes da computação
Para iniciar o terminal da Web na página de detalhes compute:
Na barra lateral do site workspace, clique em compute.
No All-purpose compute tab, clique no nome do compute.
Clique em começar para começar o compute.
Em Apps tab, clique em Web Terminal.
Um novo site tab é aberto com a interface de usuário do terminal da Web e o prompt do Bash.
Usar terminal web
No terminal da Web, o senhor pode executar o comando a partir da raiz dentro do contêiner do nó do driver compute.
Cada usuário pode ter até 100 sessões de terminal web ativas (tab) abertas. as sessões do terminal web parado podem expirar e o aplicativo web do terminal web será reconectado, resultando em um novo processo de shell. Se você quiser manter sua sessão Bash, o Databricks recomenda usar tmux.
execução Databricks CLI comando
O senhor também pode usar o terminal da Web para executar o comando Databricks CLI . A CLI disponível é sempre a versão mais recente, e a autenticação é baseada no usuário atual. O site compute deve atender aos seguintes requisitos:
O site cluster deve ter o Databricks Runtime 15.0 ou o acima instalado.
O site workspace não deve estar habilitado para o serviço Private Connect.
Inicie o terminal da Web e execute o seguinte comando para gerar informações sobre o usuário atual:
databricks current-user me
Databricks O comando Bundle também está disponível, o que permite que o senhor crie e gerencie seus Bundles ativos diretamente do terminal da Web no site Databricks workspace. Por exemplo, para criar, implantar e executar um pacote simples usando o default padrão:
Na raiz do terminal da Web, navegue até a página inicial do site workspace e execute
bundle init
:cd /Workspace/Users/someone@example.com databricks bundle init
Aceite os prompts do padrão default e, em seguida, vá para o diretório do pacote e implante-o:
cd my_project databricks bundle deploy
O senhor pode acessar view o pacote
my_project
implantado na interface de usuário Databricks workspace .Por fim, execute o default Job no pacote:
databricks bundle run my_project_job
Navegue até Job execução para ver a execução Job.
Configure seu terminal web
Você pode definir configurações persistentes para seu terminal web usando .bashrc arquivos de configuração.
O Databricks fornece automaticamente os arquivos denominados .bashrc a partir da pasta inicial do seu sistema de arquivos workspace. As configurações desses arquivos são ativadas automaticamente sempre que o senhor inicia uma nova sessão de terminal.
Se você quiser obter outros arquivos (como .zshrc) para sua experiência de terminal web, obtenha-os em seu .bashrc arquivo para manter a configuração.
Salve todos os arquivos de configuração na pasta workspace, onde poderá configurá-los usando um editor de texto.
Limitações
Databricks não oferece suporte à execução do Spark Job a partir do terminal da Web.
Databricks O terminal da Web não está disponível nos seguintes tipos de compute:
Compute de jobs
Computação serverless
compute iniciado com a variável de ambiente
DISABLE_WEB_TERMINAL=true
definida.compute lançado com o modo de acesso definido como Shared em Databricks Runtime abaixo 15.1. O terminal da Web está disponível no site compartilhado compute para Databricks Runtime 15.1 e acima.
iniciado com o modo de acesso definido como Compartilhado em GCP implantado pelo GKE. Em GCP, o terminal da Web está disponível em compute compartilhado implantado pela GCE.
compute iniciado com a configuração
spark.databricks.pyspark.enableProcessIsolation
do Spark definida comotrue
.
Há um limite rígido de 12 horas desde o carregamento inicial da página, após o qual qualquer conexão, mesmo que ativa, será encerrada. Você pode refresh o terminal da web para reconectar. Databricks recomenda usar tmux para preservar sua sessão de shell.
O recurso ARM compute não pode usar terminais da Web para acessar arquivos workspace, inclusive arquivos em pastas Git.