O que é AutoML?
AutoML simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor.
Como o AutoML funciona?
Forneça seu endereço dataset e especifique o tipo de problema machine learning e, em seguida, AutoML faz o seguinte:
Limpa e prepara seus dados.
Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
Encontra o melhor modelo usando os algoritmos de avaliação de código aberto de Scikit-Learn, xgboost, LightGBM, Prophet, e ARIMA.
Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.
Comece a trabalhar com os experimentos do AutoML por meio de uma interface de usuário com pouco código para regressão, classificação, previsão ou Python API.
Requisitos
Databricks recomenda Databricks Runtime 10.4 LTS ML ou acima para AutoML disponibilidade geral.
AutoML depende do pacote
databricks-automl-runtime
, que contém componentes que são úteis fora do site AutoML e também ajuda a simplificar o Notebook gerado pelo treinamento AutoML.databricks-automl-runtime
está disponível no PyPI.Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no cluster.
Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.
Para acessar os arquivos no seu site workspace, é preciso ter as portas de rede 1017 e 1021 abertas para os experimentos do site AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN cloud e as regras do grupo de segurança ou entre em contato com o administrador local do cloud. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
Use um recurso compute com um modo de acessocompute compatível. Nem todos os modos de acesso do site compute têm acesso ao site Unity Catalog:
modo de acesso computacional
Suporte a AutoML
Suporte ao Unity Catalog
Único usuário
Suportado (deve ser o usuário único designado para o cluster)
Suportado
Modo de acesso compartilhado
Sem compatibilidade
Sem compatibilidade
Nenhum isolamento compartilhado
Suportado
Sem compatibilidade
Algoritmos AutoML
AutoML ensina e avalia modelos com base nos algoritmos da tabela a seguir.
Observação
Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados em Scikit-Learn.
| Classification models | Regression models | Forecasting models | | ——————— | —————– | —————— | Decision trees | Decision trees |Prophet|Florestas aleatórias | Florestas aleatórias| Auto-ARIMA (Disponível em Databricks Runtime 10.3 ML e acima.)| O senhor pode usar o Random Forest para criar modelos de classificação. | Regressão logística | Regressão linear com descida de gradiente estocástico | | XGBoost | XGBoost | | LightGBM| LightGBM||
Teste Notebook generation
Classic compute AutoML gera o Notebook do código-fonte por trás dos testes para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.
Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.
Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas além da melhor tentativa, os notebook_path
e notebook_url
na TrialInfo
Python API não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook
Python API.
Se o senhor usar apenas a exploração de dados Notebook ou a melhor tentativa Notebook gerada por AutoML, a coluna Source (Fonte ) na UI do experimento AutoML conterá o link para o Notebook gerado para a melhor tentativa.
Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
Valores de Shapley (SHAP) para explicabilidade do modelo
Observação
No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime
.
Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.
AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.
Para calcular e exibir valores de Shapley:
Vá para a seção de importância do recurso em uma avaliação gerada pelo AutoML Notebook.
Defina
shap_enabled = True
.Execute novamente o notebook