Databricks Connect for Python の制限事項

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Python の制限事項を示します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala の制限事項」を参照してください。

Databricks Connect for Databricks Runtime 13.3 LTS 以下では使用できません。

  • ストリーミング foreachBatch

  • 128 MB を超える DataFrames の作成

  • 3600秒以上の長いクエリー

Databricks Runtime 13.0 の Databricks Connect では使用できません。

  • UDFs

  • Pandas UDF

  • Pandas オン Spark

  • ストリーミング( foreachBatchなし)

  • Databricks ユーティリティ:fsls、および secrets

  • ティッカー

  • ApplyinPandas() およびシングルユーザークラスターでのCogroup()

利用できません:

  • データセット API

  • データセットの型指定された APIs (reduce()flatMap() など)

  • Databricks ユーティリティ:credentialslibrarynotebook workflowwidgets

  • SparkContext

  • RDDs

  • MLflow モデルの推論: pyfunc.spark_udf() API

  • モザイク地理空間

  • CREATE TABLE <table-name> AS SELECT (代わりに、 spark.sql("SELECT ...").write.saveAsTable("table")を使用します)

  • ApplyinPandas() および共有クラスターを使用したCogroup()

  • log4j ログレベルの変更 SparkContext

  • 分散機械学習トレーニング

  • ローカル開発環境とリモート・クラスターの同期