Apache Spark on Databricks

この記事では、Apache Spark が Databricks および Databricksデータインテリジェンスプラットフォームとどのように関連しているかについて説明します。

Apache Spark は Databricks プラットフォームの中核であり、コンピュートクラスターと SQLウェアハウスを強化するテクノロジです。 Databricks は Apache Spark 用に最適化されたプラットフォームであり、Apache Spark ワークロードを実行するための効率的でシンプルなプラットフォームを提供します。

Apache Spark と Databricks の関係は何ですか?

Databricks社は、Apache Sparkの元の作成者によって設立されました。オープンソースソフトウェアプロジェクトとして、Apache SparkにはDatabricksを含む多くのトップ企業からのコミッターがいます。

Databricks は、Apache Spark の機能の開発とリリースを続けています。 Databricks Runtime には、C++ で書き直された Apache Spark の最適化バージョンである Photon など、Apache Spark 上に構築および拡張する追加の最適化と独自の機能が含まれています。

Apache Spark は Databricks でどのように機能しますか?

コンピュートクラスターまたは SQLウェアハウスを Databricks にデプロイすると、Apache Spark が構成され、仮想マシンに配置されます。 Spark コンテキストまたは Spark セッションは Databricks によって管理されるため、これらを構成または初期化する必要はありません。

Apache Spark を使用せずに Databricks を使用できますか?

Databricks はさまざまなワークロードをサポートし、 Databricks Runtimeにオープンソースライブラリが含まれています。 Databricks SQL は内部で Apache Spark を使用しますが、エンドユーザーは標準の SQL 構文を使用してデータベースオブジェクトを作成およびクエリします。

Databricks Runtimefor Machine Learning はML data scientistsワークロード向けに最適化されており、多くのTensorFlow の作業中にScikit-Learn Databricksやなどの主要なオープンソースライブラリを使用しています。ジョブを使用して、 Databricksによってデプロイおよび管理されるコンピュートリソースに対して任意のワークロードをスケジュールできます。

Databricks で Apache Spark を使用する理由

Databricks プラットフォームは、ビジネスに合わせて拡張できるエンタープライズソリューションを開発およびデプロイするための、安全でコラボレーションな環境を提供します。 Databricks の従業員には、世界で最も知識豊富な Apache Spark のメンテナーやユーザーが多数含まれています。同社は、ユーザーがApache Sparkを実行するための最速の環境にアクセスできるように、新しい最適化を継続的に開発してリリースしています。

Databricks での Apache Spark の使用について詳しく知るにはどうすればよいですか?

Databricks で Apache Spark を使い始めるには、今すぐ始めましょう。 Apache Spark DataFrames チュートリアルでは、Python、R、または Scala でのデータの読み込みと変換について説明します。「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。

での、R、および言語のサポートに関する追加情報は、PythonScalaSparkPySpark 上のDatabricks 、の概要SparkR 、およびDatabricks Scala開発者向けのセクション、およびのリファレンスApache SparkAPIs に記載されています。