Limitações do modo de acesso de computação para o Unity Catalog
A Databricks recomenda o uso do Unity Catalog e do modo de acesso compartilhado para a maioria das cargas de trabalho. Este artigo descreve as limitações e os requisitos de cada modo de acesso com Unity Catalog. Para obter detalhes sobre os modos de acesso, consulte Modos de acesso.
Databricks recomenda o uso de políticas compute para simplificar as opções de configuração para a maioria dos usuários. Consulte Criar e gerenciar políticas em compute .
Observação
O compartilhamento sem isolamento e a passagem de credenciais são modos de acesso legados que não são compatíveis com o Unity Catalog.
Limitações do modo de acesso de usuário único no Unity Catalog
O modo de acesso de usuário único no Unity Catalog tem as seguintes limitações. Estas são adicionais às limitações gerais para todos os modos de acesso Unity Catalog . Consulte Limitações gerais do Unity Catalog.
Não há suporte para controle de acesso refinado em um único usuário compute. Especificamente:
Para consultar a exibição dinâmica, a exibição na qual o senhor não tem SELECT
nas tabelas e exibições subjacentes e as tabelas com filtros de linha ou máscaras de coluna, use um dos seguintes procedimentos:
limitações de transmissão para o modo de acesso de usuário único do Unity Catalog
O ponto de verificação assíncrono não tem suporte no Databricks Runtime 11.3 LTS e abaixo.
StreamingQueryListener
É necessário o Databricks Runtime 15.1 ou o acima para usar credenciais ou interagir com objetos gerenciados pelo Unity Catalog em um único usuário compute.
Limitações do modo de acesso compartilhado no Unity Catalog
O modo de acesso compartilhado no Unity Catalog tem as seguintes limitações. Essas limitações são adicionais às limitações gerais de todos os modos de acesso do Unity Catalog. Consulte Limitações gerais para o Unity Catalog.
Databricks Runtime ML e Spark biblioteca do machine learning (MLlib) não são suportados.
Spark-submit A tarefa do trabalho não é suportada. Em vez disso, use uma tarefa JAR.
O DBUtils e outros clientes que leem diretamente os dados do armazenamento cloud só são compatíveis quando o senhor usa um local externo para acessar o local de armazenamento. Consulte Criar um local externo para conectar o armazenamento em nuvem à Databricks.
Em Databricks Runtime 13.3 e acima, as linhas individuais não podem exceder 128 MB.
DBFS root e as montagens não são compatíveis com o FUSE.
Suporte de idioma para o modo de acesso compartilhado do Unity Catalog
Spark API limitações e requisitos para o modo de acesso compartilhado Unity Catalog
Não há suporte para APIs RDD.
Spark Context (sc
),spark.sparkContext
e sqlContext
não são suportados para Scala em nenhum Databricks Runtime e não são suportados para Python no Databricks Runtime 14.0 e acima.
A Databricks recomenda usar a variável spark
para interagir com a instância SparkSession
.
As seguintes funções sc
também não são suportadas: emptyRDD
, range
, init_batched_serializer
, parallelize
, pickleFile
, textFile
, wholeTextFiles
, binaryFiles
, binaryRecords
, sequenceFile
, newAPIHadoopFile
, newAPIHadoopRDD
, hadoopFile
, hadoopRDD
, union
, runJob
, setSystemProperty
, uiWebUrl
, stop
, setJobGroup
, setLocalProperty
, getConf
.
As seguintes Scala dataset API operações requerem Databricks Runtime 15.4 LTS ou acima: map
, mapPartitions
, foreachPartition
, flatMap
, reduce
e filter
.
A propriedade de configuração do Spark spark.executor.extraJavaOptions
não é suportada.
Limitações e requisitos do UDF para o modo de acesso compartilhado do Unity Catalog
As funções definidas pelo usuário (UDFs) têm as seguintes limitações com o modo de acesso compartilhado:
Não há suporte para UDFs do Hive.
applyInPandas
e mapInPandas
requerem Databricks Runtime 14.3 ou acima.
PySpark Os UDFs não podem acessar as pastas Git, os arquivos workspace ou os volumes para importar módulos em Databricks Runtime 14.2 e abaixo.
Scala Os UDFs escalares exigem o site Databricks Runtime 14.2 ou acima. Não há suporte para outros UDFs e UDAFs do Scala.
Em Databricks Runtime 14.2 e abaixo, o uso de uma versão personalizada de grpc
, pyarrow
ou protobuf
em uma biblioteca PySpark UDF até Notebook-scoped ou cluster-scoped não é suportado porque a versão instalada é sempre a preferida. Para encontrar a versão da biblioteca instalada, consulte a seção System Environment (Ambiente do sistema) da versão específica do site Databricks Runtime notas sobre a versão.
Os UDFs não escalares Python e Pandas, incluindo UDAFs, UDTFs e Pandas em Spark, exigem Databricks Runtime 14.3 LTS ou acima.
Consulte Funções definidas pelo usuário (UDFs) no Unity Catalog.
limitações e requisitos de transmissão para o modo de acesso compartilhado Unity Catalog
Observação
Algumas das opções do Kafka listadas têm suporte limitado quando usadas em configurações compatíveis no Databricks. Todas as limitações listadas em Kafka são válidas tanto para o processamento de lotes quanto para o de transmissão. Veja o processamento da transmissão com Apache Kafka e Databricks.
Para Scala, foreach
requer Databricks Runtime 16.1 ou acima. foreachBatch
e FlatMapGroupWithState
não são suportados.
Para Python, foreachBatch
tem as seguintes alterações de comportamento em Databricks Runtime 14.0 e acima:
print()
comando write output to the driver logs.
O senhor não pode acessar o submódulo dbutils.widgets
dentro da função.
Todos os arquivos, módulos ou objetos referenciados na função devem ser serializáveis e estar disponíveis no Spark.
Para Scala, from_avro
requer Databricks Runtime 14.2 ou acima.
applyInPandasWithState
requer Databricks Runtime 14.3 LTS ou acima.
Não há suporte para trabalhar com fontes de soquete.
O sourceArchiveDir
deve estar no mesmo local externo que a origem quando você usa option("cleanSource", "archive")
com uma fonte de dados gerenciada pelo Unity Catalog.
Para fontes e sumidouros do Kafka, não há suporte para as seguintes opções:
kafka.sasl.client.callback.handler.class
kafka.sasl.login.callback.handler.class
kafka.sasl.login.class
kafka.partition.assignment.strategy
As seguintes opções do site Kafka são compatíveis com os sites Databricks Runtime 13.3 LTS e acima, mas não são compatíveis com o site Databricks Runtime 12.2 LTS. O senhor só pode especificar locais externos gerenciar por Unity Catalog para essas opções:
Para Scala, StreamingQueryListener
requer Databricks Runtime 16.1 e acima.
Para Python, StreamingQueryListener
requer Databricks Runtime 14.3 LTS ou acima para usar credenciais ou interagir com objetos gerenciados por Unity Catalog em compute compartilhado.
Limitações e requisitos de acesso à rede e ao sistema de arquivos para o modo de acesso compartilhado do Unity Catalog
O senhor deve executar o comando em compute nós como um usuário de baixo privilégio, proibido de acessar partes confidenciais do sistema de arquivos.
No Databricks Runtime 11.3 LTS e abaixo, só é possível criar ligações de rede às portas 80 e 443.
Limitações gerais do Unity Catalog
As limitações a seguir se aplicam a todos os modos de acesso habilitados para o Unity Catalog.