Soluções de referência para aplicações de imagem

Aprenda a fazer inferência de modelo de imagem distribuída a partir Notebook soluções de referência usando pandas UDF, PyTorch e TensorFlow em uma configuração comum compartilhada por muitos aplicativos de imagem do mundo real. Essa configuração supõe que você armazene muitas imagens em um armazenamento de objeto e, opcionalmente, tenha novas imagens chegando continuamente.

fluxo de trabalho para inferência de modelo de imagem

Suponha que você tenha vários modelos de aprendizagem profunda (DL) treinados para classificação de imagens e detecção de objetos – por exemplo, MobileNetV2 para detectar objetos humanos em fotosupload pelo usuário para ajudar a proteger a privacidade – e deseja aplicar esses modelos DL às imagens armazenadas.

Você pode treinar novamente os modelos e atualizar as previsões compute anteriores. No entanto, carregar muitas imagens e aplicar modelos DL é pesado para E/S e computepesada. Felizmente, a carga de trabalho de inferência é embaraçosamente paralela e, em teoria, pode ser distribuída facilmente. Este guia orienta você através de soluções práticas que contém duas passos principais:

  1. Imagens ETL em uma tabela Delta usando o Auto Loader

  2. Execute inferência distribuída usando pandas UDF

Imagens ETL em uma tabela Delta usando o Auto Loader

Para aplicativos de imagem, incluindo tarefas de treinamento e inferência, Databricks recomenda que você imagens ETL em uma tabela Delta com o Auto Loader. O Auto Loader ajuda na gestão de dados e lida automaticamente com novas imagens que chegam continuamente.

Conjunto de dados de imagem ETL em um Notebook de tabela Delta

Abra o bloco de anotações em outra guia

Execute inferência distribuída usando pandas UDF

O Notebook a seguir usa PyTorch e TensorFlow tf.Keras para demonstrar as soluções de referência.

Inferência distribuída via PyTorch e pandas UDF Notebook

Abra o bloco de anotações em outra guia

Inferência distribuída via Keras e pandas UDF Notebook

Abra o bloco de anotações em outra guia

Limitações: tamanhos de arquivo de imagem

Para arquivos de imagem grandes (tamanho médio de imagem superior a 100 MB), Databricks recomenda usar a tabela Delta apenas para gerenciar os metadados (lista de nomes de arquivo) e carregar as imagens do armazenamento de objeto usando seus caminhos quando necessário.