Apache Spark APIsリファレンス

Databricks は、ビッグデータと機械学習のための統合アナリティクスエンジンである Apache Spark の上に構築されています。詳細については、「 Databricksの Apache Spark」を参照してください。

Apache Spark 、複数の言語で 100 を超える演算子を含む大規模なデータセットを操作するためのDataFrame APIsがあります。

PySparkAPIsPython開発者向けの。「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。主なクラスは次のとおりです。
- SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリポイント。
- DataFrame - 名前付き列にグループ化されたデータの分散コレクション。「 DataFrames およびデータフレームベースの MLlib」を参照してください。
(非推奨)R 開発者向けのSparkR APIs。主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリポイントです。「開始点: SparkSession」を参照してください。
- SparkDataFrame - 名前付き列にグループ化されたデータの分散コレクション。「データセットと DataFrames」、「 DataFramesの作成」、および「 SparkDataFramesの作成」を参照してください。
ScalaAPIsScala開発者向けの。主なクラスは次のとおりです。
- SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリポイント。「開始点: SparkSession」を参照してください。
- データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。各 Dataset には、行のである DataFrame Dataset と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「関数DataFrame 」を参照してください。
JavaAPIsJava開発者向けの。主なクラスは次のとおりです。
- SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリポイント。「開始点: SparkSession」を参照してください。
- データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。各 Dataset には、行のである DataFrame Dataset と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「関数DataFrame 」を参照してください。

Databricks で Apache Spark APIsを使用する方法については、以下を参照してください。

Databricks 上の PySpark
R 開発者向けのDatabricks
Scala 開発者向けのDatabricks
Java の場合、Java コードをJAR ジョブとして実行できます。