Apache Spark API リファレンス
Databricks は、ビッグデータと機械学習のための統合アナリティクス エンジンである Apache Spark の上に構築されています。 詳細については、「 Databricksの Apache Spark」を参照してください。
Apache Spark には、100 を超える演算子を含む大規模なデータセットを操作するための DataFrame APIs があります。 詳細については、「 Databricks PySpark API リファレンス」を参照してください。
PySparkAPIsPython開発者向けの 。「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。 主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。
DataFrame - 名前付き列にグループ化されたデータの分散コレクション。 「 DataFrames および データフレームベースの MLlib」を参照してください。
R 開発者向けの SparkR の概要 。主なクラスは次のとおりです。
SparkSession - SparkSession は SparkR へのエントリ ポイントです。 「 開始点: SparkSession」を参照してください。
SparkDataFrame - 名前付き列にグループ化されたデータの分散コレクション。 「データセットと DataFrames」、「 DataFramesの作成」、および「 SparkDataFramesの作成」を参照してください。
スカラ APIs。 主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。 「 開始点: SparkSession」を参照してください。
データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。 各
Dataset
には、 行 の である DataFrameDataset
と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「 関数DataFrame 」を参照してください。
ジャワ APIs。 主なクラスは次のとおりです。
SparkSession - データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。 「 開始点: SparkSession」を参照してください。
データセット - 関数操作またはリレーショナル操作を使用して並列に変換できるドメイン固有のオブジェクトの厳密に型指定されたコレクション。 各
Dataset
には、 行 の である DataFrameDataset
と呼ばれる型指定されていないビューもあります。「データセットと DataFrames」、「データセットの作成」、「 DataFramesの作成」、および「 関数DataFrame 」を参照してください。
Databricks で Apache Spark APIsを使用する方法については、以下を参照してください。
Java の場合、Java コードを JAR ジョブとして実行できます。