Scala 開発者向けの Databricks

この記事では、Scala 言語を使用して Databricks でノートブックとジョブを開発するためのガイドを提供します。最初のセクションでは、一般的なワークフローとタスクのチュートリアルへのリンクを示します。 2 番目のセクションでは、 APIs、ライブラリ、および主要なツールへのリンクを示します。

開始するための基本的なワークフローは次のとおりです。

インタラクティブな Databricks ノートブックを使用してコードをインポートし、実行します。ファイルまたは Git リポジトリから独自のコードをインポートするか、以下にリストされているチュートリアルを試してください。
クラスターでコードを実行する: 独自のクラスターを作成するか、共有クラスターを使用するアクセス許可があることを確認します。ノートブックをクラスターにアタッチし、ノートブックを実行します。

さらに、より具体的なトピックに分岐できます。

Apache Spark を使用した大規模なデータセットの操作
ビジュアライゼーションの追加
ジョブとしてワークロードを自動化する
IDE で開発する

チュートリアル

以下のチュートリアルでは、一般的なワークフローについて学習するためのサンプルコードとノートブックを提供します。ノートブックの例をワークスペースにインポートする手順については、「ノートブックのインポート」を参照してください。

チュートリアル: Apache Spark DataFrames を使用してデータを読み込み、変換する
チュートリアル: Delta Lake では、Scala の例を紹介します。
Databricks で XGBoost を使用するには、Scala の例が用意されています。

参考

以下のサブセクションでは、Scala を使用して Databricks で開発を開始するのに役立つ主な機能とヒントを示します。

Scala API

これらのリンクは、Apache Spark Scala API の概要とリファレンスを提供します。

ノートブックと Databricks Git フォルダーを使用してコードを管理する

Databricks ノートブックは Scala をサポートしています。これらのノートブックは、Jupyter と同様の機能を提供しますが、ビッグデータを使用した組み込み visualization、デバッグとパフォーマンスモニタリングのための Apache Spark 統合、機械学習エクスペリメントを追跡するための MLflow 統合などの追加機能が追加されています。ノートブックをインポートして開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしてノートブックを実行できます。

ヒント

ノートブックの状態をリセットするには、カーネルを再起動します。 Jupyter ユーザーの場合、Jupyter の "カーネルの再起動" オプションは、Databricks でのノートブックのデタッチと再アタッチに相当します。ノートブックでカーネルを再起動するには、ノートブックツールバーのコンピュートセレクタをクリックし、リスト内の添付のクラスタリングまたは SQLウェアハウスにカーソルを合わせると、サイドメニューが表示されます。 [デタッチして再アタッチ] を選択します。これにより、ノートブックがクラスタリングから切り離されて再アタッチされ、プロセスが再開されます。

Databricks Git フォルダーを使用すると、ユーザーはノートブックやその他のファイルを Git リポジトリと同期できます。 Databricks Git フォルダーは、コードのバージョン管理とコラボレーションに役立ち、Databricks へのコードの完全なリポジトリのインポート、過去のノートブックバージョンの表示、IDE 開発との統合を簡略化できます。まず、リモート Git リポジトリをクローンします。その後、リポジトリクローンを使用してノートブックを開くか作成し、ノートブックをクラスターにアタッチして、ノートブックを実行できます。

クラスターとライブラリー

Databricks コンピュートは、単一ノードクラスターから大規模クラスターまで、あらゆるサイズのクラスターのコンピュート管理を提供します。クラスターのハードウェアとライブラリは、必要に応じてカスタマイズできます。 data scientists 通常、クラスターを作成するか、既存の共有クラスターを使用して作業を開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしたり、クラスターでジョブを実行したりできます。

単一ノードのみを必要とする小規模なワークロードの場合、データサイエンティストはコスト削減のために単一ノードのコンピュートを使用できます。
詳細なヒントについては、「コンピュート構成の推奨事項」を参照してください
管理者は、クラスターの作成を簡素化するため、指針となるクラスターポリシーを設定できます。

Databricks クラスターは、Apache Spark、Delta Lake など、すぐに使用できる多くの一般的なライブラリを提供する Databricks Runtimeを使用します。また、ノートブックやジョブで使用する追加のサードパーティまたはカスタムライブラリをインストールすることもできます。

Databricks Runtimeリリースノートのバージョンと互換性のデフォルトライブラリから始めます。プレインストールされているライブラリの完全な一覧については、「 Databricks Runtime リリースノートのバージョンと互換性」を参照してください。
Scala ライブラリをクラスターにインストールすることもできます。
詳細については、「ライブラリ」を参照してください。

ビジュアライゼーション

Databricks Scala ノートブックでは、さまざまな種類のビジュアライゼーションが組み込まれています。従来のビジュアライゼーションを使用することもできます。

相互運用性

このセクションでは、Scala と SQL の相互運用性をサポートする機能について説明します。

ジョブ

Scala ワークロードは、Databricks でスケジュールされたジョブまたはトリガーされたジョブとして自動化できます。ジョブはノートブックと JAR を実行できます。

UI を使用したジョブの作成の詳細については、「 Databricks ジョブの構成と編集」を参照してください。
Databricks SDK を使用すると、プログラムでジョブを作成、編集、削除できます。
Databricks CLI には、ジョブを自動化するための便利なコマンドラインインターフェイスが用意されています。

IDE、開発者ツール、SDK

Databricks ノートブック内で Scala コードを開発するだけでなく、IntelliJ IDEA などの統合開発環境 (IDE) を使用して外部で開発することもできます。外部開発環境と Databricks の間で作業を同期するには、いくつかのオプションがあります。

コード: Git を使用してコードを同期できます。「Databricks Git フォルダーの Git 統合」を参照してください。
ライブラリ and ジョブ: ライブラリを外部で作成し、 Databricksにアップロードできます。これらのライブラリは、Databricks ノートブック内にインポートすることも、ジョブの作成に使用することもできます。「ライブラリ」と「Databricks のオーケストレーションの概要」を参照してください。
リモートマシン実行: ローカルIDEからコードを実行して、インタラクティブな開発とテストを行うことができます。 IDE は Databricks と通信して、 Databricks クラスタで大規模な計算を実行できます。たとえば、IntelliJ IDEA を Databricks Connect で使用できます。

Databricks は、自動化と外部ツールとの統合をサポートする一連の SDK を提供します。 Databricks SDK を使用して、クラスターやライブラリ、コードやその他のワークスペースオブジェクト、ワークロードやジョブなどのリソースを管理できます。 Databricks SDK を参照してください。

IDEs、開発者ツール、SDK の詳細については、「ローカル開発ツール」を参照してください。