Apache Spark APIsリファレンス
Databricks は、ビッグデータと機械学習のための統合アナリティクス エンジンである Apache Spark の上に構築されています。 詳細については、「 Databricksの Apache Spark」を参照してください。
Apache Spark 、複数の言語で 100 を超える演算子を含む大規模なデータセットを操作するためのDataFrame APIsがあります。
PySparkAPIsPython開発者向けの 。「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。 主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。
DataFrame - 名前付き列にグループ化されたデータの分散コレクション。 「 DataFrames および データフレームベースの MLlib」を参照してください。
(非推奨)R 開発者向けのSparkR APIs。主なクラスは次のとおりです。
SparkSession - SparkSession は SparkR へのエントリ ポイントです。 「 開始点: SparkSession」を参照してください。
SparkDataFrame - 名前付き列にグループ化されたデータの分散コレクション。 「データセットと DataFrames」、「 DataFramesの作成」、および「 SparkDataFramesの作成」を参照してください。
ScalaAPIsScala開発者向けの 。主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。 「 開始点: SparkSession」を参照してください。
データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。 各
Dataset
には、 行 の である DataFrameDataset
と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「 関数DataFrame 」を参照してください。
JavaAPIsJava開発者向けの 。主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。 「 開始点: SparkSession」を参照してください。
データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。 各
Dataset
には、 行 の である DataFrameDataset
と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「 関数DataFrame 」を参照してください。
Databricks で Apache Spark APIsを使用する方法については、以下を参照してください。
Java の場合、Java コードをJAR ジョブとして実行できます。