Databricks para desenvolvedores Scala

Este artigo fornece um guia para desenvolver Notebook e Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutorial para fluxo de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas key .

Um fluxo de trabalho básico para começar é:

Além disso, você pode se aprofundar em tópicos mais específicos:

Tutoriais

O tutorial abaixo fornece código de exemplo e Notebook para aprender sobre fluxo de trabalho comum. Consulte Importar um Notebook para obter instruções sobre como importar exemplos Notebook para sua workspace.

Referência

As subseções abaixo listam key recursos e dicas para ajudá-lo a começar a desenvolver no Databricks com Scala.

gerenciar código com pastas Git do Notebook e do Databricks

Databricks Notebook suporta Scala. Esses Notebook fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações integradas usando big data, integrações Apache Spark para depuração e monitoramento de desempenho e integrações MLflow para acompanhamento de experimentos machine learning . Comece importando um Notebook. Depois de ter acesso a um clusters, você pode anexar um Notebook aos clusters e executar o Notebook.

Dica

Para Reset completamente o estado do seu Notebook, pode ser útil reiniciar o kernel. Para usuários do Jupyter, a opção “reiniciar kernel” no Jupyter corresponde a desanexar e reanexar um Notebook no Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas Notebook e passe o mouse sobre os clusters anexados ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar e anexar novamente. Isso desconecta o Notebook de seus clusters e o reconecta, o que reinicia o processo.

As pastas Git do Databricks permitem que os usuários sincronizem o Notebook e outros arquivos com os repositórios Git. As pastas Git da Databricks ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para a Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Comece clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar o Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.

Clusters e bibliotecas

Databricks compute fornece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. O senhor pode personalizar o hardware e a biblioteca dos clusters de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando clusters ou usando clusters compartilhados existentes. Depois de ter acesso aos clusters, o senhor pode anexar um Notebook aos clusters ou executar um Job nos clusters.

Os clusters Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com Notebook e Job.

Visualizações

Databricks Scala Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que suportam a interoperabilidade entre Scala e SQL.

Empregos

Você pode automatizar Job de trabalho do Scala como trabalho agendado ou acionado no Databricks. Jobs podem executar Notebook e JARs.

  • Para obter detalhes sobre como criar um Job por meio da interface do usuário, consulte Criar um Job.

  • Os SDKs do Databricks permitem que você crie, edite e exclua Job programaticamente.

  • A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar Job.

IDEs, ferramentas de desenvolvedor e SDKs

Além de desenvolver o código Scala no Databricks Notebook, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e Databricks, existem várias opções:

  • Código: O senhor pode sincronizar o código usando o Git. Consulte a integração do Git com as pastas Git do Databricks.

  • Bibliotecas e Job: você pode criar bibliotecas externamente e upload las no Databricks. Essas bibliotecas podem ser importadas no Databricks Notebook ou podem ser usadas para criar Job. Veja biblioteca e Criar e executar Databricks Jobs.

  • Execução remota de máquina: você pode executar código de seu IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Databricks para executar grandes cálculos em clusters do Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos workspace , cargas de trabalho e Job e muito mais. Consulte os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas e orientações para desenvolvedores.

Recursos adicionais

  • A Databricks Academy oferece cursos individualizados e conduzidos por instrutor em muitos tópicos.