O que é AutoML?

AutoML simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor.

Como o AutoML funciona?

Forneça seu endereço dataset e especifique o tipo de problema machine learning e, em seguida, AutoML faz o seguinte:

  1. Limpa e prepara seus dados.

  2. Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.

  3. Encontra o melhor modelo usando os algoritmos de avaliação de código aberto de Scikit-Learn, xgboost, LightGBM, Prophet, e ARIMA.

  4. Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.

Comece a trabalhar com os experimentos do AutoML por meio de uma interface de usuário com pouco código para regressão, classificação, previsão ou Python API.

Requisitos

  • Databricks recomenda Databricks Runtime 10.4 LTS ML ou acima para AutoML disponibilidade geral.

  • AutoML depende do pacote databricks-automl-runtime, que contém componentes que são úteis fora do site AutoML e também ajuda a simplificar o Notebook gerado pelo treinamento AutoML. databricks-automl-runtime está disponível no PyPI.

  • Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no cluster.

    • Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.

  • Para acessar os arquivos no seu site workspace, é preciso ter as portas de rede 1017 e 1021 abertas para os experimentos do site AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN cloud e as regras do grupo de segurança ou entre em contato com o administrador local do cloud. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.

  • Use um recurso compute com um modo de acessocompute compatível. Nem todos os modos de acesso do site compute têm acesso ao site Unity Catalog:

    modo de acesso computacional

    Suporte a AutoML

    Suporte ao Unity Catalog

    Modo de acesso dedicado

    Suportado

    Suportado

    Único usuário

    Suportado (deve ser o usuário único designado para o cluster)

    Suportado

    Modo de acesso compartilhado

    Sem compatibilidade

    Sem compatibilidade

    Nenhum isolamento compartilhado

    Suportado

    Sem compatibilidade

Algoritmos AutoML

AutoML ensina e avalia modelos com base nos algoritmos da tabela a seguir.

Observação

Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados em Scikit-Learn.

| Classification models | Regression models | Forecasting models | | ——————— | —————– | —————— | Decision trees | Decision trees |Prophet|Florestas aleatórias | Florestas aleatórias| Auto-ARIMA (Disponível em Databricks Runtime 10.3 ML e acima.)| O senhor pode usar o Random Forest para criar modelos de classificação. | Regressão logística | Regressão linear com descida de gradiente estocástico | | XGBoost | XGBoost | | LightGBM| LightGBM||

Teste Notebook generation

Classic compute AutoML gera o Notebook do código-fonte por trás dos testes para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.

Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.

Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas além da melhor tentativa, os notebook_path e notebook_url na TrialInfo Python API não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook Python API.

Se o senhor usar apenas a exploração de dados Notebook ou a melhor tentativa Notebook gerada por AutoML, a coluna Source (Fonte ) na UI do experimento AutoML conterá o link para o Notebook gerado para a melhor tentativa.

Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.

Valores de Shapley (SHAP) para explicabilidade do modelo

Observação

No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime.

Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.

AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.

Para calcular e exibir valores de Shapley:

  1. Vá para a seção de importância do recurso em uma avaliação gerada pelo AutoML Notebook.

  2. Defina shap_enabled = True.

  3. Execute novamente o notebook