AIと機械学習の統合
Databricks は、一般的な機械学習シナリオを可能にするさまざまなサードパーティソリューションとの統合を検証しています。
レイの統合
Ray は、Python アプリケーションをスケーリングするためのオープンソースフレームワークです。 AI ワークロードに固有のライブラリが含まれているため、AI アプリケーションの開発に特に適しています。 DatabricksでRayを実行すると、Databricksエコシステムの幅広さを活用でき、オープンソースのRayでは利用できないサービスや統合を使用して、データ処理と機械学習のワークフローを強化できます。
詳細については、「Databricksの Ray とは」を参照してください。
GraphFrames 統合
GraphFrames は、DataFrame ベースのグラフを提供する Apache Spark のパッケージです。 、 、 のハイレベルなAPIs JavaPythonScalaを提供します。これは、Spark DataFrames を利用して、GraphX の機能と拡張機能の両方を提供することを目的としています。 この拡張機能には、モチーフの検索、DataFrame ベースのシリアル化、表現力の高いグラフ クエリが含まれます。
大規模言語モデル (LLM)
Databricks により、公開されている大規模言語モデルに簡単にアクセスし、そこから構築することができます。 Databricks Runtime ML には、 Hugging Face Transformers などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合するための LangChain が含まれています。 さらに、 Databricks は、 SQL ユーザーがアクセスするための組み込み機能や、 Azure OpenAIや AI 機能を使用したOpenAIなどのLLMを使用したエクスペリメントを提供します。
データのラベル付け
追加のトレーニング データにラベルを付けることは、分類やコンピューター ビジョン アプリケーションなど、多くの機械学習ワークフローにとって重要なステップです。 Databricks は、データのラベル付けを直接サポートしていません。しかし、Databricks と Labelbox のパートナーシップにより、プロセスが簡素化されます。
Labelbox の Partner Connect ドキュメントをご覧ください。