Desenvolver em Databricks
Databricks Os usuários desenvolvedores abrangem data scientists, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps - todos criando soluções e integrações para estender e personalizar Databricks para suas necessidades específicas. Além dos muitos Databricks APIs e do recurso de engenharia de dados disponíveis no workspace, há também muitas ferramentas para conexão com o Databricks e desenvolvimento local que dão suporte aos usuários desenvolvedores do Databricks.
Este artigo oferece uma visão geral do APIs e das ferramentas disponíveis para os usuários desenvolvedores do Databricks.
começar a codificar no workspace
Desenvolver no site workspace é uma ótima maneira de se familiarizar rapidamente com o site Databricks APIs. Databricks suporta Python, SQL, Scala, R e outros recursos voltados para o desenvolvedor no workspace, incluindo ferramentas e utilitários úteis.
Aqui estão algumas maneiras de começar:
Leia uma visão geral e encontre links para tutoriais de vários cenários para Python, Scalae R. Para obter uma tabela de ferramentas compatíveis com vários idiomas, consulte Visão geral dos idiomas.
Consulte a referência da linguagem SQL para ver a profundidade e a amplitude dos recursos.
Faça o tutorial: Load and transformation de dados using Apache Spark DataFramesin Python, Scala, or R to get an introduction to Spark APIs. Outros exemplos simples para o PySpark estão em PySpark basics.
Procure a documentação de referência disponível, incluindo a referência da API REST, que fornece uma boa imagem dos objetos da Databricks que também podem ser criados e modificados com outras ferramentas.
Instale o Python SDK em um Notebook e escreva uma função simples.
Mova alguns arquivos usando as utilidadesDatabricks
fs
comando, para se familiarizar com o uso das utilidadesdbutils
para manipular o ambiente Databricks.
Criar aplicativos e soluções personalizados
Databricks fornece ferramentas para o desenvolvimento local e workspace. No workspace, é possível criar aplicativos usando a interface do usuário, os dados são facilmente acessíveis em Unity Catalog volumes e workspace arquivos, workspace- apenas recursos como o Databricks Assistant para depuração estão disponíveis, outras funcionalidades, como o Notebook, são totalmente funcionais e o controle de origem está disponível com Git pastas.
Como alternativa, desenvolva soluções personalizadas usando um IDE em seu computador local para aproveitar toda a funcionalidade de um ambiente de desenvolvimento avançado. O desenvolvimento local oferece suporte a uma variedade maior de idiomas, o que significa que recursos dependentes do idioma, como depuração e estruturas de teste, estão disponíveis para dar suporte a projetos maiores, juntamente com acesso direto ao controle de origem.
Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
Recurso |
Descrição |
---|---|
Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com a Databricks. |
|
Conecte-se ao seu espaço de trabalho remoto Databricks a partir do Visual Studio Code para uma configuração fácil da sua conexão com o Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks. |
|
Configure uma conexão com um site remoto Databricks workspace e execute arquivos em Databricks clustering a partir de PyCharm. Esse plug-in é desenvolvido e fornecido pela JetBrains em parceria com a Databricks. |
|
Automatize suas interações com a Databricks usando um SDK, em vez de chamar as APIs REST diretamente. |
Conectar-se ao Databricks
A conexão com a Databricks é um componente necessário de muitas integrações e soluções, e a Databricks oferece uma grande variedade de ferramentas de conexão para o senhor escolher. A tabela a seguir fornece ferramentas para conectar o ambiente e os processos de desenvolvimento ao site Databricks workspace e ao recurso.
Recurso |
Descrição |
---|---|
Conecte-se à Databricks usando ambientes de desenvolvimento integrado (IDEs) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. |
|
Fácil configuração de sua conexão com o site Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks. |
|
Conecte-se a Databricks para executar SQL comandos e scripts, interagir programaticamente com Databricks e integrar a funcionalidade Databricks SQL a aplicativos escritos em linguagens populares, como Python, Go, JavaScript e TypeScript. |
Dica
Você também pode conectar muitas outras ferramentas populares de terceiros a clusters e SQL warehouses para acessar dados no Databricks.Consulte os Parceiros tecnológicos.
gerenciar infraestrutura e recursos
Os desenvolvedores e engenheiros de dados que estão criando o pipeline CI/CD para automatizar o provisionamento e o gerenciamento de infraestrutura e recursos podem escolher entre as seguintes ferramentas que oferecem suporte a cenários pipeline simples e mais complicados.
Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
Recurso |
Descrição |
---|---|
Acesse a funcionalidade do Databricks usando a interface de linha de comando (CLI) do Databricks. A CLI envolve a API REST do Databricks, portanto, em vez de enviar chamadas à API REST diretamente usando curl ou Postman, o senhor pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI em um terminal local ou use-o no workspace terminal da Web. |
|
Defina e gerencie Databricks recurso e seu CI/CD pipeline usando as melhores práticas de desenvolvimento, teste e implantação padrão da indústria para seus dados e AI projetos com Databricks ativo Bundles, que é um recurso do Databricks CLI. |
|
Provedor Terraform da Databricks e Terraform CDKTF para Databricks |
provisionamento Databricks infraestrutura e recurso usando Terraform. |
Integrar sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkins e Apache Airflow. |
Envolver-se com a comunidade de desenvolvedores da Databricks
Databricks tem uma comunidade de desenvolvedores ativa, que é apoiada pelos seguintes programas e recursos:
Databricks MVPs: Esse programa reconhece os membros da comunidade, data scientists, engenheiros de dados, desenvolvedores e entusiastas do código aberto que vão além dos dados e da comunidade AI. Para obter mais informações, consulte Databricks MVPs.
treinamento: Databricks oferece módulos de aprendizagem para Apache Spark AI desenvolvedores de, engenheiros de geração, engenheiros de dados e muito mais.
comunidade: Há uma grande quantidade de conhecimento disponível no site Databricks comunidade e no site Apache Spark comunidade.