O que são transformadores Hugging Face ?

Este artigo fornece uma introdução ao Hugging Face Transformers no Databricks. Ele inclui orientação sobre por que usar o Hugging Face Transformers e como instalá-lo em seus clusters.

Plano de fundo para Hugging Face

Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada por Hugging Face. Ele fornece APIs e ferramentas para downloads modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicativos multimodais.

Observação

Licença Apache 2.0.

O Databricks Runtime para Machine Learning inclui Hugging Face transformers no Databricks Runtime 10.4 LTS ML e acima, e inclui dataset Hugging Face, acelerar e avaliar no Databricks Runtime 13.0 ML e acima.

Para verificar qual versão do Hugging Face está incluída em sua versão configurada do Databricks Runtime ML, consulte a seção da biblioteca Python nas notas relevantes sobre a versão.

Por que usar transformadores Hugging Face ?

Para muitos aplicativos, como análise de sentimento e resumo de texto, os modelos pré-treinados funcionam bem sem nenhum treinamento de modelo adicional.

Os pipelines do Hugging Face Transformers codificam as melhores práticas e têm modelos default selecionados para diferentes tarefas, tornando mais fácil começar. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem que lotes de itens sejam enviados para a GPU para melhor desempenho do Taxa de download.

Hugging Face fornece:

  • Um hub de modelo contendo muitos modelos pré-treinados.

  • A biblioteca 🤗 Transformers que suporta downloads e uso desses modelos para aplicações NLP e ajuste fino. É comum precisar tanto de um tokenizador quanto de um modelo para tarefas de processamento de linguagem natural.

  • 🤗 Pipelines Transformers que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.

Instalar transformers

Se a versão do Databricks Runtime em seus clusters não incluir Hugging Face transformers, você poderá instalar a biblioteca Hugging Face transformers mais recente como uma biblioteca Databricks PyPI.

  %pip install transformers

Instalar dependências de modelo

Modelos diferentes podem ter dependências diferentes. Databricks recomenda que você use comandos mágicos %pip para instalar essas dependências conforme necessário.

A seguir estão as dependências comuns:

  • librosa: suporta a decodificação de arquivos de áudio.

  • soundfile: necessário ao gerar algum dataset de áudio.

  • bitsandbytes: necessário ao usar load_in_8bit=True.

  • SentencePiece: usado como tokenizer para modelos NLP.

  • timm: exigido por DetrForSegmentation.

Treinamento de nó único

Para testar e migrar o fluxo de trabalho de uma única máquina, use um cluster de nó único.

Recursos adicionais

Os artigos a seguir incluem Notebook de exemplo e orientação sobre como usar Hugging Face transformers para ajuste fino de modelo de linguagem grande (LLM) e inferência de modelo em Databricks.