recurso engenharia e servindo

Esta página aborda os recursos de engenharia e de serviço do espaço de trabalho que estão habilitados para Unity Catalog. Se o seu workspace não estiver habilitado para Unity Catalog, consulte workspace repositório de recursos (Legacy).

Por que usar o Databricks como seu repositório de recursos?

Com a Databricks Data Intelligence Platform, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma:

  • pipeline de dados que ingere dados brutos, cria tabelas de recursos, ensina modelos e realiza inferência de lotes. Quando o senhor ensina e log um modelo usando engenharia de recurso em Unity Catalog, o modelo é empacotado com metadados de recurso. Quando o senhor usa o modelo para pontuação de lotes ou inferência on-line, ele recupera automaticamente os valores de recurso. O chamador não precisa saber sobre eles nem incluir lógica para procurar ou join recorrer para pontuar novos dados.

  • Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.

  • Monitoramento de dados e modelos.

Além disso, a plataforma oferece o seguinte:

  • descoberta de recursos. O senhor pode navegar e pesquisar recursos na UI Databricks.

  • Governança. As tabelas, funções e modelos de recurso são todos regidos pelo site Unity Catalog. Quando o senhor ensina um modelo, ele herda as permissões dos dados em que foi treinado.

  • Linhagem. Quando você cria uma tabela de recursos no Databricks, a fonte de dados usada para criar a tabela de recursos é salva e acessível. Para cada recurso em uma tabela de recursos, você também pode acessar os modelos, Notebook, Job e endpoint que usam o recurso.

  • Acesso cruzadoworkspace. As tabelas, funções e modelos de recursos estão automaticamente disponíveis em qualquer site workspace que tenha acesso ao catálogo.

Requisitos

  • Seu site workspace deve estar habilitado para Unity Catalog.

  • O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.

Se o seu workspace não atender a esses requisitos, consulte workspace repositório de recursos (Legacy) para saber como usar o workspace repositório de recursos.

Como funciona o recurso engenharia no site Databricks?

O típico machine learning fluxo de trabalho usando recurso engenharia em Databricks segue esse caminho:

  1. Escreva código para converter dados brutos em recursos e crie um Spark DataFrame contendo os recursos desejados.

  2. Crie uma tabela Delta no Unity Catalog. Qualquer tabela Delta com um key primário é automaticamente uma tabela de recurso.

  3. Ensinar e log um modelo usando a tabela de recursos. Quando o senhor faz isso, o modelo armazena as especificações do recurso usado para o treinamento. Quando o modelo é usado para inferência, ele automaticamente junta recurso das tabelas de recurso apropriadas.

  4. modelo de registro em Model Registry.

Agora você pode usar o modelo para fazer previsões sobre novos dados. O modelo recupera automaticamente o recurso necessário do Feature Store.

recurso Armazena fluxo de trabalho para lotes de casos de uso machine learning .

começar a usar recurso engenharia - exemplo Notebook

Para começar, experimente estes exemplos do Notebook. O site básico Notebook mostra aos senhores como criar uma tabela de recursos, usá-la para ensinar um modelo e, em seguida, realizar a pontuação de lotes usando a pesquisa automática de recursos. Ele também apresenta a UI do recurso engenharia e mostra como o senhor pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.

Recurso básico de engenharia em Unity Catalog exemplo Notebook

Abra o bloco de anotações em outra guia

O exemplo de táxi Notebook ilustra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes.

recurso engenharia in Unity Catalog taxi example Notebook

Abra o bloco de anotações em outra guia

Tipos de dados compatíveis

O recurso engenharia em Unity Catalog e workspace repositório de recursos suporta os seguintes tipos de dadosPySpark:

  • IntegerType

  • FloatType

  • BooleanType

  • StringType

  • DoubleType

  • LongType

  • TimestampType

  • DateType

  • ShortType

  • ArrayType

  • BinaryType [1]

  • DecimalType [1]

  • MapType [1]

  • StructType [2]

[1] BinaryType, DecimalType e MapType são suportados em todas as versões do recurso engenharia em Unity Catalog e em workspace repositório de recursos v0.3.5 ou superior. [2] StructType é compatível com o recurso engenharia v0.6.0 ou superior.

Os tipos de dados listados acima suportam tipos de recursos comuns em aplicativos machine learning . Por exemplo:

  • Você pode armazenar vetores densos, tensores e embeddings como ArrayType.

  • Você pode armazenar vetores, tensores e embeddings esparsos como MapType.

  • Você pode armazenar texto como StringType.

Quando publicados em lojas online, os recursos ArrayType e MapType são armazenados no formato JSON.

A UI do repositório de recursos exibe metadados sobre tipos de dados de recursos:

Exemplo de tipos de dados complexos

Mais informações

Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to repositório de recursos.