Preparação de dados para previsão

Este artigo descreve como o site AutoML prepara os dados para treinamento de previsão e descreve as definições de dados configuráveis. O senhor pode ajustar essas opções durante a configuração do experimento na UI do AutoML.

Para definir essas configurações usando a API do AutoML, consulte a referência da API do AutoML Python.

Tipos de recursos de dados compatíveis

Somente os tipos de recurso listados abaixo são compatíveis. Por exemplo, imagens não são suportadas.

Os seguintes tipos de recursos são compatíveis:

  • Numérico (ByteType, ShortType, IntegerType, LongType, FloatType e DoubleType)

  • Booleana

  • Cadeia de caracteres (texto categórico ou em inglês)

  • Carimbos de data e hora (TimestampType, DateType)

  • ArrayType[Numérico] (Databricks Runtime 10.4 LTS MLe acima)

  • DecimalType (Databricks Runtime 11.3 LTS MLe acima)

Impute valores faltantes

Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode especificar como os valores nulos são imputados. Na interface do usuário, selecione um método no menu suspenso da coluna Impute with no esquema da tabela. Na API, use o parâmetro imputers. Para obter mais informações, consulte AutoML Python API reference.

Em default, AutoML seleciona um método de imputação com base no tipo e no conteúdo da coluna.

Observação

Se o senhor especificar um método de imputação que não seja odefault, o AutoML não realizará a detecção do tipo semântico.

Dividir os dados de previsão em conjuntos de ensino, validação e teste

O AutoML divide seus dados em três divisões para treinamento, validação e teste.

Para prever a tarefa, o site AutoML usa a validação cruzada de séries temporais. Esse método amplia de forma incremental o treinamento dataset cronologicamente e realiza a validação em pontos de tempo subsequentes. A validação cruzada fornece uma avaliação robusta do desempenho de um modelo em diferentes segmentos de tempo. Ele garante que o modelo de previsão seja rigorosamente testado em relação a dados futuros não vistos, mantendo a relevância e a precisão das previsões.

O número de dobras de validação cruzada depende das características da tabela de entrada, como o número de séries temporais, a presença de covariáveis e a duração da série temporal.

Agregação de série temporal

Para problemas de previsão, quando há vários valores para um timestamp em uma série temporal, o AutoML usa a média dos valores.

Para usar a soma, edite o código-fonte do Notebook gerado pela execução do teste. Na célula Agregar dados por..., altere .agg(y=(target_col, "avg")) para .agg(y=(target_col, "sum")), conforme mostrado:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })