Databricksの生成AIと大規模言語モデル(LLM)
この記事では、Databricks のジェネレーティブ AI の概要を説明し、ノートブックやデモの例へのリンクも掲載しています。
生成AI とは
生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。
生成AIアプリケーションは、生成AIモデル、つまり大規模言語モデル(LLM)と基盤モデルの上に構築されています。
LLMは、膨大なデータセットを消費してトレーニングすることで、言語処理タスクで卓越した能力を発揮するディープラーニングモデルです。トレーニングデータに基づいて、自然言語を模倣した新しいテキストの組み合わせを作成します。
基盤モデルは、より具体的な言語理解と生成タスクに向けてファインチューニングすることを意図して事前にトレーニングされた、大規模な機械学習モデルです。これらのモデルは、入力データ内のパターンを判別するために使用されます。
学習プロセスを完了した後、プロンプトを入力すると、これらのモデルは集合的に動作し、統計的に確率の高い出力を生成します。これにより、次のようなさまざまなタスクを実行できます。
既存の画像に基づいて画像を生成したり、1つの画像のスタイルを利用して画像を変更したり新しい画像を作成したりします。
テープ起こし、翻訳、質問/回答生成、テキストの意図や意味の解釈などの音声タスクを遂行します。
重要
多くのLLMやその他の生成AIモデルは安全装置を備えていますが、それでも有害な情報や不正確な情報が生成される可能性があります。
生成AIには以下のような設計パターンがあります。
プロンプトエンジニアリング:LLMの動作を導く専門的なプロンプトの作成
検索拡張生成(RAG):LLMと外部ナレッジ検索の組み合わせ
微調整:事前トレーニングされたLLMを特定のデータセットやドメインに適応
事前トレーニング:ゼロからのLLMトレーニング
Databricks上で生成AIとLLMを開発する
Databricksは、データの収集と準備から、モデル開発とLLMOps、サービス提供とモニタリングまで、AIライフサイクルを統合します。次の機能は、生成AIアプリケーションの開発を容易にするために特別に最適化されています。
データ、機能、モデル、機能のガバナンス、検出、バージョン管理、アクセス制御のためのUnity Catalog。
関連リソース
DatabricksでのHugging Faceモデルの使用に関する情報については、「Hugging Face Transformers」を参照してください。
Githubのdatabricks-ml-examplesリポジトリには、最先端の(SOTA)LLMの実装例が含まれています。