Databricks上の大規模言語モデル (LLM)

Databricks を使用すると、公開されている大規模な言語モデルに簡単にアクセスして構築できます。

Databricks Runtime for Machine Learning には Hugging Face Transformersや LangChain などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソースライブラリをワークフローに統合できます。ここから、Databricks プラットフォーム機能を活用し、独自のデータを使用して LLM をファインチューニングし、ドメインパフォーマンスを向上させることができます。

Hugging Face Transformers

Databricks の Hugging Face Transformersを使用すると、自然言語処理 (NLP) バッチアプリケーションをスケールアウトし、大規模な言語モデルアプリケーション用にモデルをファインチューニングできます。

Hugging Face transformers ライブラリは、 Databricks Runtime LTS ML以降にプレインストールされています。一般的なNLPモデルの多くはGPUハードウェアで最適に機能するため、CPUでの使用に特別に最適化されたモデルを使用しない限り、最新のGPUハードウェアを使用して最高のパフォーマンスが得られる可能性があります。

DSPyの

DSPy は、ユーザー定義の自然言語シグネチャを完全な命令と数ショットの例に変換することにより、プロンプトチューニングを自動化します。

DSPy の使用方法の例については、「 Databricks で DSPy を使用して genAI アプリを構築する」を参照してください。

LangChain

LangChain は実験的な MLflow フレーバーとして利用できるため、LangChain のお客様は Databricks 環境から直接 MLflow の堅牢なツールとエクスペリメント追跡機能を活用できます。

LangChainは、大規模な言語モデル(LLM)を利用し、それらを外部データと組み合わせて、LLMのトレーニングコンテキストを増やすアプリケーションの作成を支援するように設計されたソフトウェアフレームワークです。

Databricks Runtime 機械学習には、 Databricks Runtime 13.1 機械学習以降のlangchainが含まれています。

Databricks 固有の LangChain 統合について説明します。