サーバレスコンピュートの制限
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、ノートブックとジョブに対するサーバレス コンピュートの現在の制限について説明します。 まず、最も重要な考慮事項の概要を説明し、次に制限事項の包括的な参照リストを提供します。
制限事項の概要
新しいワークロードを作成したり、ワークロードをサーバーレス コンピュートに移行する前に、まず次の制限を考慮してください。
サポートされている言語は Python と SQL のみです。
Spark Connect APIのみがサポートされます。 Spark RDD APIはサポートされていません。
JAR ライブラリはサポートされていません。 回避策については、 「サーバレス コンピュートのベスト プラクティス」を参照してください。
サーバレス コンピュートは、すべてのワークスペース ユーザーに無制限のアクセス権を与えます。
ノートブックのタグはサポートされていません。
ストリーミングの場合、増分バッチ ロジックのみを使用できます。 デフォルトまたは時間ベースのトリガー間隔はサポートされていません。 ストリーミングの制限事項を参照してください。
制限事項の参照リスト
以下のセクションでは、サーバレス コンピュートの現在の制限事項を示します。
サーバレス コンピュートは共有コンピュート アーキテクチャに基づいています。 共有コンピュートから継承される最も関連性の高い制限と、サーバー固有の追加の制限を以下に示します。 共通のカタログ制限の完全なリストについては、 「Unity Catalogのカタログ アクセス モードの制限」を参照してください。
一般的な制限事項
Scala と R はサポートされていません。
SQL を記述する場合、ANSI SQL がデフォルトになります。 ANSI モードをオプトアウトするには、
spark.sql.ansi.enabled
をfalse
に設定します。Spark RDD APIはサポートされていません。
Spark コンテキスト (sc)、
spark.sparkContext
、およびsqlContext
はサポートされていません。
Webターミナルはサポートされていません。
クエリは 48 時間を超えて実行することはできません。
外部データソースに接続するには、 Unity Catalog を使用する必要があります。 外部ロケーションを使用して、クラウド ストレージにアクセスします。
データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。
ユーザー定義関数 (UDF) はインターネットにアクセスできません。 このため、 CREATE FUNCTION (外部) コマンドはサポートされていません。 Databricks では、 CREATE FUNCTION (SQL と Python) を使用して UDF を作成することをお勧めします。
個々の行は、最大サイズの 128MB を超えてはなりません。
Spark UI は使用できません。 代わりに、クエリ プロファイルを使用して Spark クエリに関する情報を表示します。 「クエリ プロファイル」を参照してください。
Spark ログは、サーバレス ノートブックおよびジョブを使用している場合は使用できません。 ユーザーは、クライアント側のアプリケーションログにのみアクセスできます。
クロスワークスペース アクセスは、ワークスペースが同じリージョンにあり、宛先ワークスペースに IP ACL またはフロントエンドの PrivateLink が構成されていない場合にのみ許可されます。
グローバル一時ビューはサポートされていません。 Databricks では、 セッションの一時ビュー を使用するか、セッション間のデータの受け渡しが必要なテーブルを作成することをお勧めします。
ストリーミングの制限
デフォルトまたは時間ベースのトリガー間隔はサポートされていません。
Trigger.AvailableNow
のみがサポートされています。「構造化ストリーミングのトリガー間隔を構成する」を参照してください。共有アクセス モードでのストリーミングに関するすべての制限も適用されます。 Unity Catalog 共有アクセス モードのストリーミングの制限と要件を参照してください。
機械学習の制限事項
Databricks Runtime for Machine Learning と Apache Spark MLlib はサポートされていません。
GPU はサポートされていません。
ノートブックの制限
ノートブックは 8GB のメモリにアクセスできますが、構成することはできません。
ノートブックスコープのライブラリは、開発セッション間でキャッシュされません。
ユーザー間でノートブックを共有する場合、TEMP テーブルとビューの共有はサポートされていません。
ノートブック内のデータフレームのオートコンプリートと変数エクスプローラーはサポートされていません。
ワークフローの制限
サーバレスコンピュート for Jobのドライバサイズは現在固定で変更できません。
タスク ログはタスク実行ごとに分離されていません。 ログには複数のタスクからの出力が含まれます。
ノートブックタスクではタスクライブラリはサポートされていません。 代わりにノートブックスコープのライブラリを使用してください。 ノートブックスコープの Python ライブラリを参照してください。
コンピュート固有の制限
以下のコンピュート固有の機能はサポートされていません。
コンピュートポリシー
コンピュートスコープの init スクリプト
カスタム データソースとSpark拡張機能を含む、コンピュート スコープのライブラリ。 代わりにノートブックスコープのライブラリを使用してください。
インスタンス プロファイルを含む、コンピュート レベルのデータ アクセス構成。 その結果、クラウド パス上の HMS 経由、または埋め込まれた資格情報を持たない DBFS マウントを使用したテーブルやファイルへのアクセスは機能しなくなります。
インスタンスプール
コンピュートイベントログ
ほとんどの Apache Spark コンピュート構成。 サポートされている構成の一覧については、「 サポートされている Spark 構成パラメーター」を参照してください。
環境変数。 代わりに、Databricksでは ウィジェット を使用して ジョブとタスクのパラメーターを作成することをお勧めします。
キャッシングの制限
データフレームと SQL キャッシュ API は、サーバレス コンピュートではサポートされていません。 これらの API または SQL コマンドのいずれかを使用すると、例外が発生します。
Hive の制限事項
Hive SerDe テーブル はサポートされていません。 また、Hive SerDe テーブルにデータをロードする対応する LOAD DATA コマンドはサポートされていません。 このコマンドを使用すると、例外が発生します。
データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。
Hive 変数 (
${env:var}
、${configName}
、${system:var}
、spark.sql.variable
など) や、${var}
構文を使用した設定変数の参照はサポートされていません。 Hive 変数を使用すると、例外が発生します。代わりに、DECLARE VARIABLE、 SET VARIABLE、および SQL セッション変数参照とパラメーター マーカー ('?' または ':var') を使用して、セッション状態を宣言、変更、および参照します。多くの場合、 IDENTIFIER 句 を使用してオブジェクト名をパラメータ化することもできます。