Apache Spark em Databricks

Este artigo descreve como o Apache Spark está relacionado ao Databricks e à Databricks Data Intelligence Platform.

Apache Spark está no centro da plataforma Databricks e é a tecnologia que alimenta clusters compute e SQL warehouse. Databricks é uma plataforma otimizada para Apache Spark, fornecendo uma plataforma simples e eficiente para executar cargas de trabalho do Apache Spark.

Qual é a relação do Apache Spark com o Databricks?

A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem committers de muitas empresas importantes, incluindo Databricks.

Databricks continua desenvolvendo e lançando recursos para Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo Photon, uma versão otimizada do Apache Spark reescrita em C++.

Como o Apache Spark funciona no Databricks?

Quando você implanta clusters compute ou SQL warehouse em Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar ou inicializar um contexto Spark ou sessão Spark, pois eles são gerenciados para você pelo Databricks.

Posso usar o Databricks sem usar o Apache Spark?

Databricks oferece suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. Databricks SQL usa o Apache Spark sob o capô, mas os usuários finais usam a sintaxe SQL padrão para criar e query objetos de banco de dados.

Databricks Runtime for Machine Learning é otimizado para ML cargas de trabalho, e muitos data scientists usam código aberto primário de biblioteca como TensorFlow e Scikit-Learn enquanto trabalham em Databricks. O senhor pode usar o Job para programar cargas de trabalho arbitrárias contra compute recurso implantado e gerenciar por Databricks.

Por que usar o Apache Spark no Databricks?

A plataforma Databricks fornece um ambiente seguro e colaborativo para o desenvolvimento e implantação de soluções empresariais que acompanham o seu negócio. Os funcionários da Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.

Como posso saber mais sobre o uso do Apache Spark na Databricks?

Para começar a usar o Apache Spark na Databricks, mergulhe de cabeça! O tutorial do Apache Spark DataFrames orienta o carregamento e a transformação de dados em Python, R ou Scala. Consulte tutorial: Carga e transformação de dados usando Apache Spark DataFrames .

Informações adicionais sobre o suporte às linguagens Python, R e Scala em Spark podem ser encontradas nas seções PySpark em Databricks, SparkR overview e Databricks para desenvolvedores Scala , bem como em Reference for Apache Spark APIs .