Databricks para desenvolvedores Scala

Este artigo fornece um guia para desenvolver Notebook e Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutorial para fluxo de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas key .

Um fluxo de trabalho básico para começar é:

Importe código e execute-o usando um Databricks interativo Notebook: Importe seu próprio código de arquivos ou repositórios Git ou experimente um tutorial listado abaixo.
execução do seu código em um cluster: crie um cluster próprio ou certifique-se de ter permissões para usar um cluster compartilhado. Anexe seu Notebook aos clusters e execute o Notebook.

Além disso, você pode se aprofundar em tópicos mais específicos:

Trabalhe com conjuntos de dados maiores usando o Apache Spark
Adicionar visualizações
Automatize sua carga de trabalho como um Job
Desenvolva em IDEs

Tutoriais

O tutorial abaixo fornece código de exemplo e Notebook para aprender sobre fluxo de trabalho comum. Consulte Importar um Notebook para obter instruções sobre como importar exemplos Notebook para sua workspace.

tutorial: Carga e transformação de dados usando Apache Spark DataFrames
Tutorial: Delta Lake fornece exemplos de Scala.
Usar XGBoost no Databricks fornece um exemplo do Scala.

Referência

As subseções abaixo listam key recursos e dicas para ajudá-lo a começar a desenvolver no Databricks com Scala.

API Scala

Esses links fornecem uma introdução e referência para a API Apache Spark Scala.

gerenciar código com pastas Git do Notebook e do Databricks

Databricks Suporte para notebook Scala. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos machine learning. Comece importando um Notebook. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster e executar o Notebook.

Dica

Para redefinir o estado de seu notebook, reinicie o kernel. Para os usuários do Jupyter, a opção "restart kernel" no Jupyter corresponde a desanexar e reanexar um Notebook em Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas do Notebook e passe o mouse sobre o clustering anexado ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar & e reconectar. Isso desconecta o Notebook do clustering e o reconecta, o que reinicia o processo.

Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os repositórios do Git. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar um Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.

Clusters e bibliotecas

O Databricks compute oferece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. O senhor pode personalizar o hardware e a biblioteca do cluster de acordo com suas necessidades. data scientists Geralmente, o trabalho começa criando um cluster ou usando um clustercompartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.

Para cargas de trabalho pequenas que exigem apenas nós únicos, o cientista de dados pode usar a computação de nó único para economizar custos.
Para obter dicas detalhadas, consulte Recomendações de configuração da computação
Os administradores podem configurar políticas de cluster para simplificar e orientar a criação de clusters.

Os clusters Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com Notebook e Job.

comece com a biblioteca default no Databricks Runtime notas sobre a versão versões e compatibilidade. Para obter listas completas de bibliotecas pré-instaladas, consulte Databricks Runtime notas sobre a versão versões e compatibilidade.
Você também pode instalar bibliotecas Scala em clusters.
Para mais detalhes, consulte biblioteca.

Visualizações

Databricks Scala Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que suportam a interoperabilidade entre Scala e SQL.

Empregos

O senhor pode automatizar as cargas de trabalho do Scala como um trabalho agendado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.

Para obter detalhes sobre como criar um Job por meio da interface do usuário, consulte Configurar e editar Databricks Jobs.
Os SDKs do Databricks permitem criar, editar e excluir trabalhos programaticamente.
A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar Job.

IDEs, ferramentas de desenvolvedor e SDKs

Além de desenvolver o código Scala no Databricks Notebook, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e Databricks, existem várias opções:

Código: O senhor pode sincronizar o código usando o Git. Consulte Integração do Git para pastas Git do Databricks.
biblioteca e Job: O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Veja biblioteca e Overview of orquestração em Databricks.
Execução remota de máquina: você pode executar código de seu IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Databricks para executar grandes cálculos em clusters do Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Os SDKs do Databricks podem ser usados para administrar recursos como clusters e bibliotecas, código e outros objetos no workspace, cargas de trabalho e tarefas, e muito mais.Consulte os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.

Recursos adicionais

A Databricks Academy oferece cursos individualizados e conduzidos por instrutor em muitos tópicos.