O que é AutoML?

Databricks AutoML simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetros para o senhor.

Forneça seu endereço dataset e especifique o tipo de problema machine learning e, em seguida, AutoML faz o seguinte:

  1. Limpa e prepara seus dados.

  2. Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.

  3. Encontra o melhor modelo usando os algoritmos de avaliação de código aberto de Scikit-Learn, xgboost, LightGBM, Prophet, e ARIMA.

  4. Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.

Comece a usar os experimentos do AutoML por meio de uma interface de usuário com pouco código ou do Python API.

Requisitos

  • Databricks Runtime 9.1 ML ouacima. Para a versão de disponibilidade geral (GA), Databricks Runtime 10.4 LTS ML ouacima.

    • Para previsão de série temporal, Databricks Runtime 10.0 ML ouacima.

    • Com o Databricks Runtime 9.1 LTS ML e acima, o AutoML depende do pacote databricks-automl-runtime, que contém componentes úteis fora do AutoML e também ajuda a simplificar o Notebook gerado pelo AutoML treinamento. databricks-automl-runtime está disponível no PyPI.

  • Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no cluster.

    • Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.

  • O AutoML é incompatível com clusters de modo de acesso compartilhado.

  • Para usar o Unity Catalog com AutoML, o modo de acessoclusters deve ser Single User e você deve ser o usuário único designado dos clusters.

  • Para acessar os arquivos no seu site workspace, é preciso ter as portas de rede 1017 e 1021 abertas para os experimentos do site AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN cloud e as regras do grupo de segurança ou entre em contato com o administrador local do cloud. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.

Algoritmos AutoML

O Databricks AutoML ensina e avalia modelos com base nos algoritmos na tabela a seguir.

Observação

Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados em Scikit-Learn.

Modelos de classificação

Modelos de regressão

Modelos de previsão

Árvores de decisão

Árvores de decisão

Prophet

Florestas aleatórias

Florestas aleatórias

Auto-ARIMA (Disponível no Databricks Runtime 10.3 MLe acima.)

Regressão logística

Regressão linear com descida de gradiente estocástico

XGBoost

XGBoost

LightGBM

LightGBM

Teste Notebook generation

AutoML gera o Notebook do código-fonte por trás dos trials para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.

Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.

Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas além da melhor tentativa, os notebook_path e notebook_url na TrialInfo Python API não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook Python API.

Se o senhor usar apenas a exploração de dados Notebook ou a melhor tentativa Notebook gerada por AutoML, a coluna Source (Fonte ) na UI do experimento AutoML conterá o link para o Notebook gerado para a melhor tentativa.

Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.

Valores de Shapley (SHAP) para explicabilidade do modelo

Observação

No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime.

Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.

AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.

Para calcular e exibir valores de Shapley:

  1. Vá para a seção de importância do recurso em uma avaliação gerada pelo AutoML Notebook.

  2. Defina shap_enabled = True.

  3. Execute novamente o notebook