Desenvolver em Databricks

Databricks Os usuários desenvolvedores abrangem data scientists, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps - todos criando soluções e integrações para estender e personalizar Databricks para suas necessidades específicas. Além dos muitos Databricks APIs e do recurso de engenharia de dados disponíveis no workspace, há também muitas ferramentas para conexão com o Databricks e desenvolvimento local que dão suporte aos usuários desenvolvedores do Databricks.

Este artigo oferece uma visão geral do APIs e das ferramentas disponíveis para os usuários desenvolvedores do Databricks.

começar a codificar no workspace

Desenvolver no site workspace é uma ótima maneira de se familiarizar rapidamente com o site Databricks APIs. Databricks suporta Python, SQL, Scala, R e outros recursos voltados para o desenvolvedor no workspace, incluindo ferramentas e utilitários úteis.

Aqui estão algumas maneiras de começar:

Criar aplicativos e soluções personalizados

Databricks fornece ferramentas para o desenvolvimento local e workspace. No workspace, é possível criar aplicativos usando a interface do usuário, os dados são facilmente acessíveis em Unity Catalog volumes e workspace arquivos, workspace- apenas recursos como o Databricks Assistant para depuração estão disponíveis, outras funcionalidades, como o Notebook, são totalmente funcionais e o controle de origem está disponível com Git pastas.

Como alternativa, desenvolva soluções personalizadas usando um IDE em seu computador local para aproveitar toda a funcionalidade de um ambiente de desenvolvimento avançado. O desenvolvimento local oferece suporte a uma variedade maior de idiomas, o que significa que recursos dependentes do idioma, como depuração e estruturas de teste, estão disponíveis para dar suporte a projetos maiores, juntamente com acesso direto ao controle de origem.

Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.

Recurso

Descrição

Autenticar e autorizar

Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com a Databricks.

Extensão do Databricks para Visual Studio Code

Conecte-se ao seu espaço de trabalho remoto Databricks a partir do Visual Studio Code para uma configuração fácil da sua conexão com o Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks.

Plugin PyCharm Databricks

Configure uma conexão com um site remoto Databricks workspace e execute arquivos em Databricks clustering a partir de PyCharm. Esse plug-in é desenvolvido e fornecido pela JetBrains em parceria com a Databricks.

SDKs da Databricks

Automatize suas interações com a Databricks usando um SDK, em vez de chamar as APIs REST diretamente.

Conectar-se ao Databricks

A conexão com a Databricks é um componente necessário de muitas integrações e soluções, e a Databricks oferece uma grande variedade de ferramentas de conexão para o senhor escolher. A tabela a seguir fornece ferramentas para conectar o ambiente e os processos de desenvolvimento ao site Databricks workspace e ao recurso.

Recurso

Descrição

Databricks Connect

Conecte-se à Databricks usando ambientes de desenvolvimento integrado (IDEs) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab.

Extensão do Databricks para Visual Studio Code

Fácil configuração de sua conexão com o site Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks.

Drivers e ferramentas SQL

Conecte-se a Databricks para executar SQL comandos e scripts, interagir programaticamente com Databricks e integrar a funcionalidade Databricks SQL a aplicativos escritos em linguagens populares, como Python, Go, JavaScript e TypeScript.

Dica

Você também pode conectar muitas outras ferramentas populares de terceiros a clusters e SQL warehouses para acessar dados no Databricks.Consulte os Parceiros tecnológicos.

gerenciar infraestrutura e recursos

Os desenvolvedores e engenheiros de dados que estão criando o pipeline CI/CD para automatizar o provisionamento e o gerenciamento de infraestrutura e recursos podem escolher entre as seguintes ferramentas que oferecem suporte a cenários pipeline simples e mais complicados.

Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.

Recurso

Descrição

CLI do Databricks

Acesse a funcionalidade do Databricks usando a interface de linha de comando (CLI) do Databricks. A CLI envolve a API REST do Databricks, portanto, em vez de enviar chamadas à API REST diretamente usando curl ou Postman, o senhor pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI em um terminal local ou use-o no workspace terminal da Web.

Databricks Asset Bundles

Defina e gerencie Databricks recurso e seu CI/CD pipeline usando as melhores práticas de desenvolvimento, teste e implantação padrão da indústria para seus dados e AI projetos com Databricks ativo Bundles, que é um recurso do Databricks CLI.

Provedor Terraform da Databricks e Terraform CDKTF para Databricks

provisionamento Databricks infraestrutura e recurso usando Terraform.

Ferramentas de CI/CD

Integrar sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkins e Apache Airflow.

Colabore e compartilhe código

Entre muitos outros recursos de colaboração no workspace, o Databricks oferece suporte específico aos usuários desenvolvedores que desejam colaborar e compartilhar códigos no workspace com esses recursos:

Recurso

Descrição

UDFs

Desenvolva UDFs (funções definidas pelo usuário) para reutilizar e compartilhar código.

Pastas Git

Configure as pastas Git para contribuições de controle de versão e fonte para os arquivos de projeto do Databricks.

Envolver-se com a comunidade de desenvolvedores da Databricks

Databricks tem uma comunidade de desenvolvedores ativa, que é apoiada pelos seguintes programas e recursos:

  • Databricks MVPs: Esse programa reconhece os membros da comunidade, data scientists, engenheiros de dados, desenvolvedores e entusiastas do código aberto que vão além dos dados e da comunidade AI. Para obter mais informações, consulte Databricks MVPs.

  • treinamento: Databricks oferece módulos de aprendizagem para Apache Spark AI desenvolvedores de, engenheiros de geração, engenheiros de dados e muito mais.

  • comunidade: Há uma grande quantidade de conhecimento disponível no site Databricks comunidade e no site Apache Spark comunidade.