チュートリアル:Databricksでの総合的な機械学習モデル

現実世界の機械学習は一筋縄ではいきません。データソースに欠損値があったり、冗長な行が含まれていたり、メモリに収まらなかったりすることもあります。特徴量エンジニアリングでは多くの場合、その分野の専門知識が必要であり、手間もかかります。モデリングにはデータサイエンスとシステムエンジニアリングが混在していることが多く、アルゴリズムの知識だけでなく、マシンアーキテクチャーや分散システムの知識も求められます。

しかしDatabricksがあれば、このプロセスはシンプルなものになります。以下の10分間のチュートリアルノートブックには、表形式のデータで機械学習モデルをトレーニングする総合的な例が掲載されています。

このノートブックをインポートして自分で実行したり、コード スニペットやアイデアをコピーして独自に使用したりすることができます。

注:

次のノートブックには、このリリースの Databricks on Google Cloud では使用できない機能が含まれている場合があります。

ノートブック

ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。

DatabricksのMLflowインテグレーションとscikit-learnを活用 (Unity Catalog)

ノートブックを新しいタブで開く

ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。

DatabricksのMLflowインテグレーションとscikit-learnを使用

ノートブックを新しいタブで開く