チュートリアル:Databricksでの総合的な機械学習モデル

現実世界の機械学習は一筋縄ではいきません。データソースに欠損値があったり、冗長な行が含まれていたり、メモリに収まらなかったりすることもあります。特徴量エンジニアリングでは多くの場合、その分野の専門知識が必要であり、手間もかかります。モデリングにはデータサイエンスとシステムエンジニアリングが混在していることが多く、アルゴリズムの知識だけでなく、マシンアーキテクチャーや分散システムの知識も求められます。

しかしDatabricksがあれば、このプロセスはシンプルなものになります。以下の10分間のチュートリアルノートブックには、表形式のデータで機械学習モデルをトレーニングする総合的な例が掲載されています。

このノートブックをインポートして実行することも、コードスニペットやアイデアをコピーして使用することもできます。

注:

次のノートブックには、このリリースの Databricks on Google Cloud では使用できない機能が含まれている場合があります。

ノートブック

ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。

Scikit-LearnMLflowで 統合を使用して を使用するDatabricks (Unity Catalog )

ノートブックを新しいタブで開く

ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。

Scikit-LearnMLflowで 統合を使用して 使用するDatabricks

ノートブックを新しいタブで開く