Databricks での探索的データ分析 : ツールとテクニック

この記事では、Databricks での探索的データ分析 (EDA) のためのツールと手法について説明します。

EDA とは何か、なぜ役立つのか?

探索的データ分析 (EDA) には、データセットを探索してその主な特徴を要約し、データの問題を特定する方法が含まれています。 統計的手法と視覚化を使用して、データセットについて学習し、分析の準備状況を判断し、データ準備に適用する手法を通知できます。 EDA は、機械学習モデルのトレーニングに適用するアルゴリズムにも影響します。

DatabricksのEDAツールとは何ですか?

Databricks には、Databricks SQL と Databricks Runtimeの両方に分析ツールと視覚化ツールが組み込まれています。 Databricks で使用できる視覚化の種類の図解の一覧については、「 視覚化の種類」を参照してください。

Databricks SQLにおけるEDA

Databricks SQL のデータ視覚化および探索ツールに関する役立つ記事を次に示します。

Databricks Runtimeにおける EDA

Databricks Runtime は、一般的なデータ探索ライブラリが既にインストールされている事前構築済みの環境を提供します。 組み込みライブラリの一覧は、 リリースノートで確認できます。

さらに、次の記事では、 Databricks Runtimeの視覚化ツールの例を示します。

Databricks Python ノートブックでは、SQL と Python を組み合わせてデータを探索できます。 Python ノートブックの SQL 言語セルでコードを実行すると、テーブルの結果は自動的に Python DataFrameとして使用可能になります。 詳細については、「 Python ノートブックでの SQL セルの結果の調査」を参照してください。