サーバレスコンピュートの制限

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、ノートブックとジョブに対するサーバレス コンピュートの現在の制限について説明します。 まず、最も重要な考慮事項の概要を説明し、次に制限事項の包括的な参照リストを提供します。

制限事項の概要

新しいワークロードを作成したり、ワークロードをサーバーレス コンピュートに移行する前に、まず次の制限を考慮してください。

  • サポートされている言語は Python と SQL のみです。

  • Spark Connect APIのみがサポートされます。 Spark RDD APIはサポートされていません。

  • JAR ライブラリはサポートされていません。 回避策については、 「サーバレス コンピュートのベスト プラクティス」を参照してください。

  • サーバレス コンピュートは、すべてのワークスペース ユーザーに無制限のアクセス権を与えます。

  • ノートブックのタグはサポートされていません。

  • ストリーミングの場合、増分バッチ ロジックのみを使用できます。 デフォルトまたは時間ベースのトリガー間隔はサポートされていません。 ストリーミングの制限事項を参照してください。

制限事項の参照リスト

以下のセクションでは、サーバレス コンピュートの現在の制限事項を示します。

サーバレス コンピュートは共有コンピュート アーキテクチャに基づいています。 共有コンピュートから継承される最も関連性の高い制限と、サーバー固有の追加の制限を以下に示します。 共通のカタログ制限の完全なリストについては、 「Unity Catalogのカタログ アクセス モードの制限」を参照してください。

一般的な制限事項

  • Scala と R はサポートされていません。

  • SQL を記述する場合、ANSI SQL がデフォルトになります。 ANSI モードをオプトアウトするには、 spark.sql.ansi.enabledfalseに設定します。

  • Spark RDD APIはサポートされていません。

  • Spark コンテキスト (sc)、 spark.sparkContext 、およびsqlContextはサポートされていません。

  • Webターミナルはサポートされていません。

  • クエリは 48 時間を超えて実行することはできません。

  • 外部データソースに接続するには、 Unity Catalog を使用する必要があります。 外部ロケーションを使用して、クラウド ストレージにアクセスします。

  • データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。

  • ユーザー定義関数 (UDF) はインターネットにアクセスできません。 このため、 CREATE FUNCTION (外部) コマンドはサポートされていません。 Databricks では、 CREATE FUNCTION (SQL と Python) を使用して UDF を作成することをお勧めします。

  • 個々の行は、最大サイズの 128MB を超えてはなりません。

  • Spark UI は使用できません。 代わりに、クエリ プロファイルを使用して Spark クエリに関する情報を表示します。 「クエリ プロファイル」を参照してください。

  • Spark ログは、サーバレス ノートブックおよびジョブを使用している場合は使用できません。 ユーザーは、クライアント側のアプリケーションログにのみアクセスできます。

  • クロスワークスペース アクセスは、ワークスペースが同じリージョンにあり、宛先ワークスペースに IP ACL またはフロントエンドの PrivateLink が構成されていない場合にのみ許可されます。

  • グローバル一時ビューはサポートされていません。 Databricks では、 セッションの一時ビュー を使用するか、セッション間のデータの受け渡しが必要なテーブルを作成することをお勧めします。

ストリーミングの制限

機械学習の制限事項

ノートブックの制限

  • ノートブックは 8GB のメモリにアクセスできますが、構成することはできません。

  • ノートブックスコープのライブラリは、開発セッション間でキャッシュされません。

  • ユーザー間でノートブックを共有する場合、TEMP テーブルとビューの共有はサポートされていません。

  • ノートブック内のデータフレームのオートコンプリートと変数エクスプローラーはサポートされていません。

ワークフローの制限

  • サーバレスコンピュート for Jobのドライバサイズは現在固定で変更できません。

  • タスク ログはタスク実行ごとに分離されていません。 ログには複数のタスクからの出力が含まれます。

  • ノートブックタスクではタスクライブラリはサポートされていません。 代わりにノートブックスコープのライブラリを使用してください。 ノートブックスコープの Python ライブラリを参照してください。

コンピュート固有の制限

以下のコンピュート固有の機能はサポートされていません。

  • コンピュートポリシー

  • コンピュートスコープの init スクリプト

  • カスタム データソースとSpark拡張機能を含む、コンピュート スコープのライブラリ。 代わりにノートブックスコープのライブラリを使用してください。

  • インスタンス プロファイルを含む、コンピュート レベルのデータ アクセス構成。 その結果、クラウド パス上の HMS 経由、または埋め込まれた資格情報を持たない DBFS マウントを使用したテーブルやファイルへのアクセスは機能しなくなります。

  • インスタンスプール

  • コンピュートイベントログ

  • ほとんどの Apache Spark コンピュート構成。 サポートされている構成の一覧については、「 サポートされている Spark 構成パラメーター」を参照してください。

  • 環境変数。 代わりに、Databricksでは ウィジェット を使用して ジョブとタスクのパラメーターを作成することをお勧めします。

キャッシングの制限

データフレームと SQL キャッシュ API は、サーバレス コンピュートではサポートされていません。 これらの API または SQL コマンドのいずれかを使用すると、例外が発生します。

Hive の制限事項

  • Hive SerDe テーブル はサポートされていません。 また、Hive SerDe テーブルにデータをロードする対応する LOAD DATA コマンドはサポートされていません。 このコマンドを使用すると、例外が発生します。

    データソースのサポートは、 AVRO 、 BINARYFILE 、 CSV 、 DELTA 、 JSON 、 Kafka 、 ORC 、 PARQUET 、 ORC 、 TEXT 、 XML に限定されています。

  • Hive 変数 ( ${env:var}${configName}${system:var}spark.sql.variableなど) や、 ${var} 構文を使用した設定変数の参照はサポートされていません。 Hive 変数を使用すると、例外が発生します。

    代わりに、DECLARE VARIABLESET VARIABLE、および SQL セッション変数参照とパラメーター マーカー ('?' または ':var') を使用して、セッション状態を宣言、変更、および参照します。多くの場合、 IDENTIFIER 句 を使用してオブジェクト名をパラメータ化することもできます。