Databricks の生成AIと大規模言語モデル(LLM)

この記事では、Databricks での生成型 AI の概要について説明し、サンプル ノートブックとデモへのリンクを示します。

生成AI とは

生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。

生成AI アプリケーションは、大規模言語モデル (LLM) と基盤モデルの上に構築されています。

  • LLMは 、言語処理タスクに優れているために、大量のデータセットを使用してトレーニングするディープラーニングモデルです。 トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成します。

  • ファウンデーションモデルは 、より具体的な言語理解と生成タスクに合わせて微調整することを意図して事前にトレーニングされた大規模な機械学習モデルです。 これらのモデルは、入力データ内のパターンを識別するために使用されます。

これらのモデルが学習プロセスを完了すると、プロンプトが表示されたときに統計的に可能性の高い出力が生成され、次のようなさまざまなタスクを実行するために使用できます。

  • 既存の画像に基づいて画像を生成するか、1つの画像のスタイルを利用して新しい画像を変更または作成します。

  • テキストの文字起こし、翻訳、質問/回答の生成、テキストの意図や意味の解釈などの音声タスク。

重要

多くのLLMやその他の生成AIモデルには安全対策が講じられていますが、それでも有害または不正確な情報を生成する可能性があります。

生成 AI には、次の設計パターンがあります。

  • プロンプトエンジニアリング:LLMの動作を導くための特殊なプロンプトの作成

  • 検索拡張世代(RAG):LLMと外部知識検索の組み合わせ

  • ファインチューニング:事前学習済みのLLMをドメインの特定のデータセットに適合させる

  • 事前トレーニング:LLMをゼロからトレーニングする

Databricks 上で生成型 AI と LLM を開発する

Databricks は、データの収集と準備から、モデル開発と LLMOps、サービス提供とモニタリングまで、AI ライフサイクルを統合します。 次の機能は、生成AI アプリケーションの開発を容易にするために特別に最適化されています。

関連リソース