Apache Spark on Databricks

この記事では、Apache Spark が Databricks および Databricksデータインテリジェンスプラットフォームとどのように関連しているかについて説明します。

Apache Spark は Databricks プラットフォームの中核であり、コンピュート クラスターと SQLウェアハウスを強化するテクノロジです。 Databricks は Apache Spark 用に最適化されたプラットフォームであり、Apache Spark ワークロードを実行するための効率的でシンプルなプラットフォームを提供します。

Apache Spark と Databricks の関係は何ですか?

Databricks社は、Apache Sparkの元の作成者によって設立されました。 オープンソースソフトウェアプロジェクトとして、Apache SparkにはDatabricksを含む 多くのトップ企業からのコミッターがいます。

Databricks は、Apache Spark の機能の開発とリリースを続けています。 Databricks Runtime には、C++ で書き直された Apache Spark の最適化バージョンである Photon など、Apache Spark 上に構築および拡張する追加の最適化と独自の機能が含まれています。

Apache Spark は Databricks でどのように機能しますか?

コンピュート クラスターまたは SQLウェアハウスを Databricks にデプロイすると、Apache Spark が構成され、仮想マシンに配置されます。 Spark コンテキストまたは Spark セッションは Databricks によって管理されるため、これらを構成または初期化する必要はありません。

Apache Spark を使用せずに Databricks を使用できますか?

Databricks はさまざまなワークロードをサポートし、 Databricks Runtimeに オープンソース ライブラリが含まれています。 Databricks SQL は内部で Apache Spark を使用しますが、エンド ユーザーは標準の SQL 構文を使用してデータベース オブジェクトを作成およびクエリします。

Databricks Machine Learning ランタイムは 機械学習ワークロード用に最適化されており、多くのデータサイエンティストは Databricks での作業中に TensorFlow や Scikit-Learn などの主要な オープンソース ライブラリを使用します。 ワークフロー を使用して、Databricks によって配置および管理されるコンピュート リソースに対して任意のワークロードをスケジュールできます。

Databricks で Apache Spark を使用する理由

Databricks プラットフォームは、ビジネスに合わせて拡張できるエンタープライズ ソリューションを開発およびデプロイするための、安全でコラボレーションな環境を提供します。 Databricks の従業員には、世界で最も知識豊富な Apache Spark のメンテナーやユーザーが多数含まれています。 同社は、ユーザーがApache Sparkを実行するための最速の環境にアクセスできるように、新しい最適化を継続的に開発してリリースしています。