Databricks para desenvolvedores Scala

Este artigo fornece um guia para desenvolver Notebook e Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutorial para fluxo de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas key .

Um fluxo de trabalho básico para começar é:

Além disso, você pode se aprofundar em tópicos mais específicos:

Tutoriais

O tutorial abaixo fornece código de exemplo e Notebook para aprender sobre fluxo de trabalho comum. Consulte Importar um Notebook para obter instruções sobre como importar exemplos Notebook para sua workspace.

Referência

As subseções abaixo listam key recursos e dicas para ajudá-lo a começar a desenvolver no Databricks com Scala.

gerenciar código com pastas Git do Notebook e do Databricks

Databricks Suporte para notebook Scala. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos machine learning. Comece importando um Notebook. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster e executar o Notebook.

Dica

Para Reset completamente o estado do seu Notebook, pode ser útil reiniciar o kernel. Para usuários do Jupyter, a opção “reiniciar kernel” no Jupyter corresponde a desanexar e reanexar um Notebook no Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas Notebook e passe o mouse sobre os clusters anexados ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar e anexar novamente. Isso desconecta o Notebook de seus clusters e o reconecta, o que reinicia o processo.

Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os repositórios do Git. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar um Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.

Clusters e bibliotecas

O Databricks compute oferece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. O senhor pode personalizar o hardware e a biblioteca do cluster de acordo com suas necessidades. data scientists Geralmente, o trabalho começa criando um cluster ou usando um clustercompartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.

Os clusters Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com Notebook e Job.

Visualizações

Databricks Scala Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que suportam a interoperabilidade entre Scala e SQL.

Empregos

O senhor pode automatizar as cargas de trabalho do Scala como um trabalho agendado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.

IDEs, ferramentas de desenvolvedor e SDKs

Além de desenvolver o código Scala no Databricks Notebook, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e Databricks, existem várias opções:

  • Código: O senhor pode sincronizar o código usando o Git. Consulte Integração do Git para pastas Git do Databricks.

  • biblioteca e Job: O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Ver biblioteca e programar e orquestrar fluxo de trabalho.

  • Execução remota de máquina: você pode executar código de seu IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Databricks para executar grandes cálculos em clusters do Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Os SDKs do Databricks podem ser usados para administrar recursos como clusters e bibliotecas, código e outros objetos no workspace, cargas de trabalho e tarefas, e muito mais.Consulte os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvedor.

Recursos adicionais

  • A Databricks Academy oferece cursos individualizados e conduzidos por instrutor em muitos tópicos.