Ensinar modelos ML com a interface de usuário do Mosaic AutoML

Este artigo demonstra como ensinar um modelo do machine learning usando o AutoML e a interface de usuário Databricks Mosaic AI. A interface de usuário do AutoML mostra ao senhor como treinar um modelo de classificação, regressão ou previsão em um dataset.

Consulte Requisitos para experimentos do AutoML.

Abra a interface de usuário do AutoML

Para acessar a interface de usuário do AutoML:

Na barra lateral, selecione Novo > AutoML Experiment.

Você também pode criar um novo experimento do AutoML na página Experimentos.

A página Configurar experimento do AutoML é exibida. Nesta página, você configura o processo AutoML, especificando o dataset, tipo de problema, destino ou coluna de rótulo para prever, métricas a serem usadas para avaliar e pontuar a execução do experimento e condições de parada.

Configurar um problema de classificação ou regressão

Você pode configurar um problema de classificação ou regressão usando a IU do AutoML com as seguintes passos:

No campo compute , selecione um clusters executando Databricks Runtime ML.
No menu suspenso do tipo de problema de ML , selecione Regressão ou Classificação. Se estiver tentando prever um valor numérico contínuo para cada observação, como renda anual, selecione regressão. Se você estiver tentando atribuir cada observação a um conjunto discreto de classes, como risco de crédito bom ou risco de crédito ruim, selecione a classificação.
Em dataset, selecione Procurar.
Navegue até a tabela que deseja usar e clique em Selecionar. O esquema da tabela é exibido.
- Em Databricks Runtime 10.3 ML e acima, o senhor pode especificar quais colunas AutoML deve usar para treinamento. O senhor não pode remover a coluna selecionada como Alvo de previsão ou a coluna de tempo para dividir os dados.
- Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode especificar como os valores nulos são imputados selecionando a opção Impute with dropdown. Em default, AutoML seleciona um método de imputação com base no tipo e no conteúdo da coluna.
Observação

Se o senhor especificar um método de imputação que não seja odefault, o AutoML não realizará a detecção do tipo semântico.
Clique no campo Alvo de previsão . Um menu suspenso aparece listando as colunas mostradas no esquema. Selecione a coluna que deseja que o modelo preveja.
O campo Nome do experimento mostra o nome default . Para alterá-lo, digite o novo nome no campo.

Você também pode:

Especifique opções de configuração adicionais.
Use as tabelas de recursos existentes no Feature Store para aumentar o datasetde entrada original.

Configurar problemas de previsão

Você pode configurar um problema de previsão usando a IU do AutoML com as seguintes passos:

No campo compute , selecione um clusters executando Databricks Runtime 10,0 ML ouacima.
No menu suspenso do tipo de problema de ML , selecione Previsão.
Em dataset, clique em Procurar. Navegue até a tabela que deseja usar e clique em Selecionar. O esquema da tabela é exibido.
Clique no campo Prediction target (Alvo de previsão ). O menu dropdown é exibido, listando as colunas mostradas no esquema. Selecione a coluna que o senhor deseja que o modelo preveja.
Clique no campo da coluna Hora . Um menu suspenso aparece mostrando as colunas dataset que são do tipo timestamp ou date. Selecione a coluna que contém os períodos de tempo para a série temporal.
Para previsão de várias séries, selecione a(s) coluna(s) que identifica(m) a série temporal individual na lista suspensa Identificadores de série temporal . O AutoML agrupa os dados por essas colunas como diferentes séries temporais e ensina um modelo para cada série de forma independente. Se você deixar esse campo em branco, o AutoML presumirá que o dataset contém uma única série temporal.
Nos campos Horizonte de previsão e frequência , especifique o número de períodos de tempo no futuro para os quais o AutoML deve calcular os valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a serem previstos. Na caixa à direita, selecione as unidades.

Observação

Para usar o Auto-ARIMA, a série temporal deve ter uma frequência regular, em que o intervalo entre dois pontos quaisquer deve ser o mesmo em toda a série temporal. A frequência deve corresponder à unidade de frequência especificada na chamada de API ou na UI do AutoML. AutoML lida com os passos de tempo ausentes preenchendo esses valores com o valor anterior.
Em Databricks Runtime 11.3 LTS ML e acima, o senhor pode salvar os resultados da previsão. Para isso, especifique um banco de dados no campo Output Database (Banco de dados de saída ). Clique em Browse e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela nesse banco de dados.
O campo Nome do experimento mostra o nome default . Para alterá-lo, digite o novo nome no campo.

Você também pode:

Especifique opções de configuração adicionais.
Use as tabelas de recursos existentes no Feature Store para aumentar o datasetde entrada original.

Use tabelas de recursos existentes do Databricks Feature Store

No Databricks Runtime 11.3 LTS MLe acima, você pode usar tabelas de recursos no Databricks Feature Store para expandir o dataset de treinamento de entrada para seus problemas de classificação e regressão.

Em Databricks Runtime 12.2 LTS ML e acima, o senhor pode usar tabelas de recursos no Databricks repositório de recursos para expandir o treinamento de entrada dataset para todos os seus AutoML problemas: classificação, regressão e previsão.

Para criar uma tabela de recursos, consulte Criar uma tabela de recursos no Unity Catalog ou Criar uma tabela de recursos no Databricks recurso Store.

Depois de configurar seu experimento AutoML, o senhor pode selecionar uma tabela de recursos usando os seguintes passos:

Clique em recursosjoin (opcional).
Na página Recursos Adicionaisjoin , selecione uma tabela de recursos no campo Tabela de Recursos .
Para cada keyprimária da tabela de recursos, selecione a key de pesquisa correspondente. A key de pesquisa deve ser uma coluna no dataset de treinamento fornecido para seu experimento do AutoML.
Para tabelas de recursos de séries temporais, selecione a key de pesquisa de carimbo de data/hora correspondente. Da mesma forma, a key de pesquisa de carimbo de data/hora deve ser uma coluna no dataset de treinamento que você forneceu para seu experimento do AutoML.
Para adicionar mais tabelas de recursos, clique em Adicionar outra tabela e repita os passos acima.

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

As métricas de avaliação são as principais métricas usadas para pontuar a execução.
Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Por default, AutoML ensinar modelos usando estruturas listadas em AutoML algoritmos.
Você pode editar as condições de parada. as condições de parada default são:
- Para experimentos de previsão, pare após 120 minutos.
- No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.
- Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.
Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar uma coluna de tempo para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão).
A Databricks recomenda não preencher o campo Data directory (Diretório de dados ). Isso aciona o comportamento default de armazenar com segurança o dataset como um artefato MLflow. A DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

executar o experimento e monitorar os resultados

Para começar a experiência do AutoML, clique em começar AutoML. O experimento começa a ser executado e a página de treinamento do AutoML aparece. Para atualizar a tabela de execução, clique em .

A partir desta página, você pode:

Interrompa o experimento a qualquer momento.
Abra o Notebook de exploração de dados.
Monitore a execução.
Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

Observação

A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que o senhor está procurando.

Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.

Quando o experimento for concluído, você poderá:

registro e aprimoramento de um dos modelos com MLflow.
Selecione view Notebook para o melhor modelo para revisar e editar o Notebook que criou o melhor modelo.
Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.
Pesquise, filtre e classifique a execução na tabela de execução.
Veja os detalhes de qualquer execução:
- O Notebook gerado contendo o código-fonte para uma execução de teste pode ser encontrado clicando na execução do MLflow. O Notebook é salvo na seção Artefatos da página de execução. Você pode downloads deste Notebook e importá-lo para o workspace, se os artefatos downloads estiverem habilitados pelos administradores workspace .
- Para view os resultados da execução, clique na coluna Models ou na coluna Come Time. A página de execução é exibida, mostrando informações sobre a execução da tentativa (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que o senhor pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML mais tarde, localize-o na tabela da página Experimentos. Os resultados de cada experimento AutoML, incluindo a exploração de dados e Notebook de treinamento, são armazenados em uma pasta databricks_automl na pasta <span texecuçãoslate="no">1<span texecuçãoslate="no">2home <span texecuçãoslate="no">3<span texecuçãoslate="no">4do usuário que executa o experimento.

registrar e aprimorar um modelo

Você pode registrar e aprimorar seu modelo com a IU do AutoML:

Selecione o link na coluna Models (Modelos ) para o modelo a ser registrado. Quando uma execução é concluída, a linha superior é o melhor modelo (com base nas métricas primárias).
Selecione para registrar um modelo no Model Registry.
Selecione Models na barra lateral para navegar até o Model Registry.
Selecione o nome do seu modelo na tabela de modelos.

Nenhum módulo chamado 'pandas.core.indexes.numeric

Ao exibir um modelo criado usando o AutoML com Model Serving, você pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso ocorre devido a uma versão pandas incompatível entre o AutoML e o modelo que atende ao ambiente de endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para seus logs de modelos para incluir a versão de dependência pandas apropriada: pandas==1.5.3

Modifique o script para incluir o run_id da execução do MLflow em que seu modelo foi logs.
Registrando novamente o modelo no MLflow Model Registry.
Tente servir a nova versão do modelo MLflow.