Unity Catalog 外部ロケーション を使用したデータのロード
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、データの追加 UI を使用して、Unity Catalog 外部ロケーションを使用して Google Cloud Storage 内のデータからマネージド テーブルを作成する方法について説明します。 外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを承認するストレージ認証情報を組み合わせたオブジェクトです。
外部の場所を使用してデータを読み込むその他の方法については、「 クラウド テナントに格納されているファイルからテーブルを作成する」を参照してください。
始める前に
開始する前に、次のものが必要です。
Unity Catalog が有効になっているワークスペース。 詳細については、「 Unity Catalog の設定と管理」を参照してください。
外部ロケーションに対する
READ FILES
権限。 詳細については、 「クラウド ストレージを Databricks に接続するための外部ロケーションを作成する」を参照してください。管理対象表を作成するスキーマに対する
CREATE TABLE
特権、スキーマに対するUSE SCHEMA
特権、および親カタログに対するUSE CATALOG
特権。 詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
ステップ 1: 外部ロケーション へのアクセスを確認する
外部ロケーションへのアクセスを確認するには、次の手順を実行します。
Databricks ワークスペースのサイドバーで、[ カタログ] をクリックします。
カタログ エクスプローラで、[ 外部データ ] > [外部ロケーション] をクリックします。
ステップ 2: マネージドテーブル を作成する
マネージドテーブルを作成するには、次の手順を実行します。
ワークスペースのサイドバーで、[ + 新規 ] > [ データの追加] の順にクリックします。
データの追加 UI で、[ Google Cloud Storage] をクリックします。
ドロップダウン リストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。
ドロップダウン リストからカタログとスキーマを選択します。
(オプション)テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細形式オプションを設定するには、[ 詳細属性] をクリックし、[ファイルの種類 を自動的に検出する] をオフにして、ファイルの種類を選択します。
形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。
列名には、コンマ、円記号、または Unicode 文字 (絵文字など) はサポートされていません。
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
[ テーブルの作成] をクリックします。
ファイルの種類の形式オプション
ファイルの種類に応じて、次の形式オプションを使用できます。
フォーマットオプション |
説明 |
サポートされているファイルの種類 |
---|---|---|
|
列間の区切り文字。 使用できる文字は 1 つだけで、円記号はサポートされていません。 デフォルトはコンマです。 |
CSV |
|
データを解析するときに使用するエスケープ文字。 デフォルトは引用符です。 |
CSV |
|
このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。 デフォルトで有効になっています。 |
CSV |
|
ファイルの種類を自動的に検出します。 デフォルトは |
XMLの |
|
ファイルの内容から列の種類を自動的に検出します。 プレビューテーブルでタイプを編集できます。 これが false に設定されている場合、すべての列型が文字列として推論されます。 デフォルトで有効になっています。 |
|
|
列の値がファイル内の複数行にまたがることができるかどうか。 デフォルトでは無効になっています。 |
|
|
複数のファイルにまたがるスキーマを推測し、各ファイルのスキーマをマージするかどうか。 デフォルトで有効になっています。 |
CSV |
|
ファイル内でコメントを許可するかどうか。 デフォルトで有効になっています。 |
JSON |
|
ファイルで単一引用符を使用できるかどうか。 デフォルトで有効になっています。 |
JSON |
|
タイムスタンプ文字列を デフォルトで有効になっています。 |
JSON |
|
スキーマに一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルトで有効になっています。 |
|
|
要素内の属性を除外するかどうか。 デフォルトは |
XMLの |
|
属性と要素を区別するための属性の接頭辞。 デフォルトは |
XMLの |
列のデータ型
次の列のデータ型がサポートされています。 個々のデータ型の詳細については、「 SQL データ型」を参照してください。
データ型 |
説明 |
---|---|
|
8 バイトの符号付き整数。 |
|
Boolean ( |
|
タイムゾーンなしの日 |
|
最大精度の数値 |
|
8 バイトの倍精度浮動小数点数。 |
|
文字列値。 |
|
年、月、日、時、分、秒のフィールドの値と、セッションのローカルタイムゾーンで構成される値。 |