Power BIをDatabricksに接続する

Microsoft Power BIは、セルフサービスのビジネスインテリジェンス機能を備えたインタラクティブなビジュアライゼーションを提供するビジネスアナリティクスサービスであり、ITスタッフやデータベース管理者に依存することなく、エンドユーザー自身がレポートやダッシュボードを作成することができます。

DatabricksをPower BIのデータソースとして使用すると、データサイエンティストやデータエンジニアだけでなく、すべてのビジネスユーザーに、Databricksのパフォーマンスとテクノロジーのメリットを提供することができます。

Databricks から Power BI Online に公開する

Online Databricksで データソースとして使用する場合、Power BIDatabricks UI から直接テーブルまたはスキーマから PowerBI データセットを作成できます。

要件

  • データはUnity Catalog上に存在し、コンピュート (クラスター) はUnity Catalogが有効になっている必要があります。 Hive metastoreは現在サポートされていません。

  • プレミアム (プレミアム容量またはプレミアム ユーザーごとのライセンス) Power BI ライセンスが必要です。

  • セマンティック モデルを公開後に編集するには、ワークスペース設定とデータ モデル設定で「ユーザーは Power BI サービスでデータ モデルを編集できる (プレビュー)」を有効にする必要があります。 また、XMLA エンドポイントを使用して接続を行うことで、表形式エディターを使用してセマンティック モデルを編集することもできます。

  • PowerBI ワークスペースで XML 書き込みを有効にする必要がある場合は、このリンクの手順に従ってください。

  • ワークスペースがプライベート リンクの下にある場合は、Power BI でデータセットのデータ ソース資格情報を手動で更新する必要があります。

使い

Databricks テーブルを Power BI データセットに公開する

  1. Databricks ワークスペースにサインインし、カタログ エクスプローラーに移動します。 パブリッシュするスキーマ/テーブルを選択します。 Hive metastoreまたはサンプル カタログから選択しないでください。

  2. コンピュート から、このPower BIパブリッシュで使用するデータウェアハウスを選択します。

  3. 公開するテーブル/スキーマをカタログ エクスプローラーで開いた状態で、右上にある [BI ツールで使用] ボタンをクリックします。

  4. 開いたドロップダウン リストで、[Power BI ワークスペースに公開] オプションをクリックします。

この時点で、ウィンドウの右側にメニューが開きます。 以下に詳述するメニューのプロンプトに従います。

  1. 「Microsoft Entra ID に接続」をクリックして、Microsoft アカウントで認証します。

  2. 次のメニューで、「 Power BIワークスペース」から公開先のワークスペースを選択します。 「データセットMode 」で、DirectQuery(デフォルトにより選択)またはインポートモードを選択します。

  3. メニューの下部にある青い「Power BI に公開」ボタンをクリックします。

  4. データセットが公開されるまで待ちます。 通常、これには約10〜20秒かかります。

  5. データセットが公開されると、青いボタンに「Power BI を開く」というリンクが表示されます。 これをクリックすると、新しい Power BI データセットが新しいタブで開きます。

機能と注意事項

  • 複数のテーブルを含むスキーマをパブリッシュすると、列を持つすべてのテーブルがパブリッシュされます。 どのテーブルにも列が存在しない場合、パブリッシュは実行されません。

  • Databricks のテーブルの列のコメントは、Power BI の対応する列の説明にコピーされます。

  • 外部キー関係は公開されたデータセットに保持されます。 ただし、Power BI では、2 つのテーブル間のアクティブなリレーションシップ パスは 1 つだけサポートされます。 したがって、Databricks のスキーマに複数のパスが存在する場合、Power BI 内の対応するリレーションシップの一部は非アクティブに設定されます。 後で、Power BI のデータ モデル ビューでアクティブ/非アクティブなリレーションシップを変更できます。

  • Power BIセマンティック モデルにアクセスできるように、個人アクセストークン (PAT) がユーザーに代わって作成されます。 この認証方法は、後で Power BI データ ソース設定で変更できます。

Power BI Desktop を Databricks に接続する

Power BI DesktopをDatabricksクラスターおよびDatabricks SQLウェアハウスに接続できます。

要件

  • Power BI Desktop 2.85.681.0以降。Unity Catalogで管理されているデータをPower BIで使用するには、Power BI Desktop 2.98.683.0以降(2021年10月リリース)を使用する必要があります。

    Power BI DesktopにはWindowsが必要です。他のオペレーティングシステムを使用している場合は、物理ホストまたはWindowsベースの仮想マシン上でPower BI Desktopを実行し、ご利用のオペレーティングシステムからそれに接続することもできます。

    2.85.681.0より前のバージョンのPower BI Desktopを使用している場合は、Power BI Desktopと同じ環境にDatabricks ODBCドライバーをインストールする必要もあります。

Partner Connectを使用してPower BI DesktopをDatabricksに接続する

Partner Connectを使用すると、数回クリックするだけでPower BI DesktopからクラスターまたはSQLウェアハウスに接続できます。

  1. Databricks アカウント、ワークスペース、およびサインインしているユーザーが Partner Connectの 要件を満たし ていることを確認します。

  2. サイドバーで、「 Partner Connectボタン Partner Connect 」をクリックします

  3. Power BI」タイルをクリックします。

  4. [ パートナーへの接続 ] ダイアログの [コンピュート] で、接続する Databricks コンピュート リソースの名前を選択します。

  5. 接続ファイルをダウンロード」を選択します。

  6. ダウンロードした接続ファイルを開くと、Power BI Desktopが起動します。

  7. Power BI Desktopで、認証情報を入力します。

    • パーソナルアクセストークン:Databricksのパーソナルアクセストークンを入力します。

    • ユーザー名/パスワード:該当なし。

    • Microsoft エントラID:適用されません。

  8. 接続」をクリックします。

  9. Power BIのナビゲーターからクエリーするDatabricksデータを選択します。

    Power BIナビゲーター

Power BI DesktopとDatabricksを手動で接続する

選択した認証方法に応じて、Power BI Desktop でクラスターまたは SQLウェアハウスに接続するには、次の手順に従ってください。 Databricks SQL ウェアハウスは、 DirectQuery モードで Power BI を使用する場合に推奨されます。

迅速にPower BI Desktopと接続するには、Partner Connectを使用します。

  1. サーバーのホスト名と HTTP パスを取得します。

  2. Power BI Desktopを起動します。

  3. データを取得」または「ファイル」>「データを取得」をクリックします。

  4. データを取得」をクリックして開始します。

  5. Databricks」と検索し、コネクタをクリックします。

    • Azure Databricks

      コネクタ名は Azure Databricks ですが、 Databricks on Google Cloud.

  6. 接続」をクリックします。

  7. サーバーのホスト名HTTPパスを入力します。

  8. データ接続モードを選択します。インポートDirectQueryの違いについては、「Power BI DesktopでDirectQueryを使用する」を参照してください。

  9. OK」をクリックします。

  10. 認証方法をクリックします。

    • パーソナルアクセストークン:Databricksのパーソナルアクセストークンを入力します。

    • ユーザー名/パスワード:該当なし。

    • Microsoft エントラID:適用されません。

  11. 接続」をクリックします。

  12. Power BIのナビゲーターからクエリーするDatabricksデータを選択します。

    Power BIナビゲーター

カスタムSQLクエリーの使用

DatabricksコネクタはDatabricks.Queryデータソースを提供しています。これを使用すると、ユーザーがカスタムSQLクエリーを指定できます。

  1. Power BI Desktop との接続 」で説明されている手順に従って、データ接続モードとして [インポート ] を使用して接続を作成します。

  2. ナビゲーターで、選択したホスト名とHTTPパスを含む一番上のアイテムを右クリックし、「データを変換」をクリックしてPower Queryエディタを開きます。

    ナビゲーターで「データを変換」をクリック
  3. 関数バーで、関数名Databricks.CatalogsDatabricks.Queryに置き換えて、変更を適用します。これにより、SQLクエリーをパラメーターとして受け取るPower Query関数が作成されます。

  4. パラメーターフィールドに目的のSQLクエリーを入力し、「実行」をクリックします。これによりクエリーが実行され、クエリー結果をコンテンツとして含む新しいテーブルが作成されます。

自動HTTPプロキシ検出

Power BI Desktopバージョン2.104.941.0以降(2022年5月リリース)には、Windowsシステム全体のHTTPプロキシ構成を検出するためのサポートが組み込まれています。

Power BI Desktopは、Windowsシステム全体のHTTPプロキシ構成を自動的に検出して使用できます。

プロキシサーバーが CRL 配布ポイント(CDP)を提供しない場合、Power BIから次のエラーメッセージが表示されることがあります。

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

このエラーに対応するには、以下のステップを実行します。

  1. ファイルが存在しない場合は、C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.iniを作成します。

  2. microsoft.sparkodbc.iniファイルに以下の構成を追加します。

    [Driver]
    CheckCertRevocation=0
    

Power BI Delta Sharingコネクタ

Power BI Delta Sharingコネクタにより、ユーザーはDelta Sharingオープンプロトコルを通じて共有されたデータセットを発見、分析、視覚化することができます。このプロトコルにより、RESTとクラウドストレージを活用することで、製品やプラットフォーム間でデータセットを安全に交換できるようになります。

接続手順については、「 Power BI: 共有データの読み取り」を参照してください。

制限事項

  • DatabricksコネクタはWebプロキシをサポートしています。ただし、.pacファイルで定義された自動プロキシ設定はサポートされません。

  • Databricksコネクタでは、Databricks.QueryデータソースとDirectQueryモードの組み合わせはサポートされていません。

  • Delta Sharingコネクタが読み込むデータは、マシンのメモリに収まるものである必要があります。これを確実にするために、コネクタはインポートされる行の数を、以前に設定された行制限に制限します。

関連リソース

サポート