Unity Catalogのコンピュート アクセス モードの制限事項
Databricks では、ほとんどのワークロードに Unity Catalog と共有アクセス モードを使用することをお勧めします。 この記事では、Unity Catalog の各アクセス モードの制限と要件について説明します。 アクセスモードの詳細については、「 アクセスモード」を参照してください。
Databricks 、ほとんどのユーザーにとって構成オプションを簡素化するために、コンピュート ポリシーの使用を推奨しています。 「コンピュートポリシーの作成と管理」を参照してください。
注:
非分離共有パススルーと資格情報パススルーは、Unity Catalog をサポートしていない従来のアクセス モードです。
Unity Catalogでのシングル ユーザー アクセス モードの制限
Unity Catalog のシングル ユーザー アクセス モードには、次の制限があります。 これらは、すべての Unity Catalog アクセス モードの一般的な制限に追加されます。 「Unity Catalog の一般的な制限事項」を参照してください。
シングル ユーザー コンピュートに対するきめ細かなアクセス制御はサポートされていません。 具体的には:
動的ビュー、基になるテーブルとビューに SELECT
がないビュー、および行フィルターまたは列マスクを持つテーブルに対してクエリを実行するには、次のいずれかを使用します。
SQLウェアハウス。
共有アクセスモードによるコンピュート。
Unity Catalog のシングルユーザーアクセスモードのストリーミングの制限事項
Unity Catalogでの共有アクセス モードの制限
Unity Catalog の共有アクセス モードには次の制限があります。 これらは、すべてのUnity Catalogアクセス モードの一般的な制限に加えて適用されます。 Unity Catalog の一般的な制限事項を参照してください。
Databricks Runtime 機械学習と Spark 機械学習ライブラリ (MLlib) はサポートされていません。
Spark-submit ジョブ タスクはサポートされていません。 代わりに JAR タスク を使用してください。
Databricks Runtime 13.3 以降では、個々の行は 128 MB を超えてはなりません。
PySpark UDF は、Databricks Runtime 14.2 以下では、Git フォルダー、ワークスペース ファイル、またはボリュームにアクセスしてモジュールをインポートすることはできません。
DBFSルートとマウントは FUSE をサポートしていません。
Unity Catalog 共有アクセス モードの言語サポート
Unity Catalog 共有アクセス モードの Spark API の制限と要件
RDD APIsサポートされていません。
DBUtils と、クラウド ストレージからデータを直接読み取るその他のクライアントは、外部ロケーションを使用してストレージの場所にアクセスする場合にのみサポートされます。 「クラウドストレージをDatabricksに接続するための外部ロケーションの作成」を参照してください。
Spark Context ( sc
)、 spark.sparkContext
、およびsqlContext
、Databricks Runtime の Scala ではサポートされておらず、Databricks Runtime 14.0 以降の Python ではサポートされていません。
Databricks では、 spark
変数を使用して SparkSession
インスタンスを操作することをお勧めします。
sc
emptyRDD
、range
、init_batched_serializer
、parallelize
、pickleFile
、textFile
、wholeTextFiles
、binaryFiles
、binaryRecords
、sequenceFile
、newAPIHadoopFile
、newAPIHadoopRDD
、hadoopFile
、hadoopRDD
、union
、runJob
、 setSystemProperty
、uiWebUrl
、stop
、setJobGroup
、setLocalProperty
、getConf
。
次のScalaデータセットAPI操作にはDatabricks Runtime 15.4 LTS以降が必要です: map
、mapPartitions
、foreachPartition
、flatMap
、reduce
、および filter
。
Unity Catalog 共有アクセス モードの UDF 制限と要件
ユーザー定義関数 (UDF) には、共有アクセス モードに関する次の制限があります。
Hive UDF はサポートされていません。
applyInPandas
mapInPandas
には Databricks Runtime 14.3 以上が必要です。
Scala スカラー UDF には、Databricks Runtime 14.2 以上が必要です。 その他のScala UDF およびUDAFsサポートされていません。
Databricks Runtime 14.2 以前では、インストールされているバージョンが常に優先されるため、ノートブック スコープまたはクラスター スコープのライブラリを介して PySpark UDF でカスタム バージョンのgrpc
、 pyarrow
、またはprotobuf
を使用することはサポートされていません。 インストールされているライブラリのバージョンを確認するには、特定の バージョン リリース ノート の 「システム環境」Databricks Runtime セクションを参照してください。
「 Unity Catalog のユーザー定義関数 (UDF)」を参照してください。
Unity Catalog 共有アクセス モードのストリーミングの制限と要件
Scala の場合、 foreach
には Databricks Runtime 16.1 以降が必要です。 foreachBatch
、および FlatMapGroupWithState
はサポートされていません。
Python の場合、 foreachBatch
Databricks Runtime 14.0 以降で次の動作が変更されています。
print()
コマンドはドライバー ログに出力を書き込みます。
関数内の dbutils.widgets
サブモジュールにはアクセスできません。
関数で参照されるファイル、モジュール、またはオブジェクトはすべてシリアル化可能で、Spark で使用可能である必要があります。
Scala の場合、 from_avro
には Databricks Runtime 14.2 以降が必要です。
applyInPandasWithState
Databricks Runtime 14.3 LTS 以上が必要です。
ソケット・ソースの操作はサポートされていません。
Unity Catalogによって管理されるデータ ソースで option("cleanSource", "archive")
を使用する場合、 sourceArchiveDir
はソースと同じ外部ロケーションに存在する必要があります。
Kafka ソースおよびシンクの場合、次のオプションはサポートされていません。
kafka.sasl.client.callback.handler.class
kafka.sasl.login.callback.handler.class
kafka.sasl.login.class
kafka.partition.assignment.strategy
次の Kafka オプションは、Databricks Runtime 13.3 LTS 以上ではサポートされていますが、Databricks Runtime 12.2 LTS ではサポートされていません。 以下のオプションでは、 Unity Catalogによって管理される外部ロケーションのみを指定できます。
Scala の場合、 StreamingQueryListener
には Databricks Runtime 16.1 以降が必要です。
Pythonの場合、StreamingQueryListener
Databricks RuntimeLTSUnity Catalogでは、共有コンピュートで によって管理されるオブジェクトを使用したり、操作したりするために、 14.3 以上が必要です。
Unity Catalog 共有アクセス モードのネットワークおよびファイル システム アクセスの制限と要件
Unity Catalogの一般的な制限事項
次の制限は、Unity Catalog が有効なすべてのアクセス モードに適用されます。