サーバレスコンピュートの制限

プレビュー

この記事では、ノートブックとジョブに対するサーバレスコンピュートの現在の制限について説明します。まず、最も重要な考慮事項の概要を説明し、次に制限事項の包括的な参照リストを提供します。

制限事項の概要

新しいワークロードを作成したり、ワークロードをサーバーレスコンピュートに移行する前に、まず次の制限を考慮してください。

サポートされている言語は Python と SQL のみです。
Spark Connect APIのみがサポートされます。 Spark RDD APIはサポートされていません。
JAR ライブラリはサポートされていません。回避策については、「サーバレスコンピュートのベストプラクティス」を参照してください。
サーバレスコンピュートは、すべてのワークスペースユーザーに無制限のアクセス権を与えます。
ノートブックのタグはサポートされていません。
ストリーミングの場合、増分バッチロジックのみを使用できます。デフォルトまたは時間ベースのトリガー間隔はサポートされていません。ストリーミングの制限事項を参照してください。

制限事項の参照リスト

以下のセクションでは、サーバレスコンピュートの現在の制限事項を示します。

サーバレスコンピュートは共有コンピュートアーキテクチャに基づいています。共有コンピュートから継承される最も関連性の高い制限と、サーバー固有の追加の制限を以下に示します。共通のカタログ制限の完全なリストについては、「Unity Catalogのカタログアクセスモードの制限」を参照してください。

一般的な制限事項

Scala と R はサポートされていません。
SQL を記述する場合、ANSI SQL がデフォルトになります。 ANSI モードをオプトアウトするには、 spark.sql.ansi.enabled を falseに設定します。
Spark RDD APIはサポートされていません。
Spark コンテキスト (sc)、 spark.sparkContext 、およびsqlContextはサポートされていません。

Webターミナルはサポートされていません。
クエリは 48 時間を超えて実行することはできません。
外部データソースに接続するには、 Unity Catalog を使用する必要があります。外部ロケーションを使用して、クラウドストレージにアクセスします。
データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。
ユーザー定義関数 (UDF) はインターネットにアクセスできません。このため、 CREATE FUNCTION (外部) コマンドはサポートされていません。 Databricks では、 CREATE FUNCTION (SQL と Python) を使用して UDF を作成することをお勧めします。
個々の行は、最大サイズの 128MB を超えてはなりません。
Spark UI は使用できません。代わりに、クエリプロファイルを使用して Spark クエリに関する情報を表示します。「クエリプロファイル」を参照してください。
Spark ログは、サーバレスノートブックおよびジョブを使用している場合は使用できません。ユーザーは、クライアント側のアプリケーションログにのみアクセスできます。
クロスワークスペースアクセスは、ワークスペースが同じリージョンにあり、宛先ワークスペースに IP ACL またはフロントエンドの PrivateLink が構成されていない場合にのみ許可されます。
グローバル一時ビューはサポートされていません。 Databricks では、セッションの一時ビューを使用するか、セッション間のデータの受け渡しが必要なテーブルを作成することをお勧めします。

ストリーミングの制限

デフォルトまたは時間ベースのトリガー間隔はサポートされていません。 Trigger.AvailableNowのみがサポートされています。「構造化ストリーミングのトリガー間隔を構成する」を参照してください。
共有アクセスモードでのストリーミングに関するすべての制限も適用されます。 Unity Catalog 共有アクセスモードのストリーミングの制限と要件を参照してください。

機械学習の制限事項

Databricks Runtime for Machine Learning と Apache Spark MLlib はサポートされていません。
GPU はサポートされていません。

ノートブックの制限

ノートブックは 8GB のメモリにアクセスできますが、構成することはできません。
ノートブックスコープのライブラリは、開発セッション間でキャッシュされません。
ユーザー間でノートブックを共有する場合、TEMP テーブルとビューの共有はサポートされていません。
ノートブック内のデータフレームのオートコンプリートと変数エクスプローラーはサポートされていません。

ワークフローの制限

サーバレスコンピュート for Jobのドライバサイズは現在固定で変更できません。
タスクログはタスク実行ごとに分離されていません。ログには複数のタスクからの出力が含まれます。
ノートブックタスクではタスクライブラリはサポートされていません。代わりにノートブックスコープのライブラリを使用してください。ノートブックスコープの Python ライブラリを参照してください。

コンピュート固有の制限

以下のコンピュート固有の機能はサポートされていません。

コンピュートポリシー
コンピュートスコープの init スクリプト
カスタムデータソースとSpark拡張機能を含む、コンピュートスコープのライブラリ。代わりにノートブックスコープのライブラリを使用してください。
インスタンスプロファイルを含む、コンピュートレベルのデータアクセス構成。その結果、クラウドパス上の HMS 経由、または埋め込まれた資格情報を持たない DBFS マウントを使用したテーブルやファイルへのアクセスは機能しなくなります。
インスタンスプール
コンピュートイベントログ
ほとんどの Apache Spark コンピュート構成。サポートされている構成の一覧については、「サポートされている Spark 構成パラメーター」を参照してください。
環境変数。代わりに、Databricksではウィジェットを使用してジョブとタスクのパラメーターを作成することをお勧めします。

キャッシングの制限

データフレームと SQL キャッシュ API は、サーバレスコンピュートではサポートされていません。これらの API または SQL コマンドのいずれかを使用すると、例外が発生します。

Hive の制限事項

Hive SerDe テーブルはサポートされていません。また、Hive SerDe テーブルにデータをロードする対応する LOAD DATA コマンドはサポートされていません。このコマンドを使用すると、例外が発生します。

データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。
Hive 変数 ( ${env:var}、 ${configName}、 ${system:var}、 spark.sql.variableなど) や、 ${var} 構文を使用した設定変数の参照はサポートされていません。 Hive 変数を使用すると、例外が発生します。

代わりに、DECLARE VARIABLE、 SET VARIABLE、および SQL セッション変数参照とパラメーターマーカー ('?' または ':var') を使用して、セッション状態を宣言、変更、および参照します。多くの場合、 IDENTIFIER 句を使用してオブジェクト名をパラメータ化することもできます。