Unity Catalog 外部ロケーションを使用したデータのロード

プレビュー

この記事では、データの追加 UIGoogle Cloud Storage を使用して、Unity Catalog 外部ロケーションを使用して内のデータからマネージドテーブルを作成する方法について説明します。外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを許可するストレージ認証情報を組み合わせたオブジェクトです。

始める前に

開始する前に、次のものが必要です。

Unity Catalog が有効になっているワークスペース。詳細については、「 Unity Catalog の設定と管理」を参照してください。
外部ロケーションに対する READ FILES 権限。詳細については、「クラウドストレージを Databricksに接続するための外部ロケーションを作成する」を参照してください。
マネージドテーブルを作成するスキーマに対する CREATE TABLE 権限、スキーマに対する USE SCHEMA 権限、および親カタログに対する USE CATALOG 権限。詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。

ファイルの種類

次のファイルタイプがサポートされています。

ステップ 1: 外部ロケーションへのアクセスを確認する

外部ロケーションへのアクセスを確認するには、次の手順を実行します。

Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
カタログエクスプローラで、「外部データ」(External Data) >「外部ロケーション」(External Locations) をクリックします。

ステップ 2: マネージドテーブルを作成する

マネージドテーブルを作成するには、次の操作を行います。

ワークスペースのサイドバーで、[ + 新規 ] > [データの追加] をクリックします。
データの追加UIで、[ Google Cloud Storage]をクリックします。
ドロップダウンリストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。
ドロップダウンリストからカタログとスキーマを選択します。
（任意）テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性] をクリックし、[ ファイルの種類を自動的に検出する] をオフにして、ファイルの種類を選択します。

形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。

列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
[テーブルを作成] をクリックします。

ファイル・タイプ・フォーマット・オプション

ファイルの種類に応じて、次の形式オプションを使用できます。

フォーマット・オプション	説明	サポートされているファイルの種類
`Column delimiter`	列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。デフォルトはカンマです。	CSV
`Escape character`	データの解析時に使用するエスケープ文字。デフォルトは引用符です。	CSV
`First row contains the header`	このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。デフォルトでは有効になっています。	CSV
`Automatically detect file type`	ファイルの種類を自動的に検出します。デフォルトは `true`です。	XMLの
`Automatically detect column types`	ファイルの内容から列の種類を自動的に検出します。プレビューテーブルでタイプを編集できます。これを false に設定すると、すべての列の型が文字列として推論されます。デフォルトでは有効になっています。	CSV JSON XMLの
`Rows span multiple lines`	列の値がファイル内の複数行にまたがることができるかどうか。デフォルトでは無効です。	CSV JSON
`Merge the schema across multiple files`	複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。デフォルトでは有効になっています。	CSV
`Allow comments`	ファイル内でコメントを許可するかどうか。デフォルトでは有効になっています。	JSON
`Allow single quotes`	ファイル内で一重引用符を使用できるかどうか。デフォルトでは有効になっています。	JSON
`Infer timestamp`	タイムスタンプ文字列を `TimestampType`として推論するかどうか。デフォルトでは有効になっています。	JSON
`Rescued data column`	スキーマと一致しない列を保存するかどうか。詳細については、「レスキューされたデータ列とは」を参照してください。デフォルトでは有効になっています。	CSV JSON AVRO PARQUET
`Exclude attribute`	要素内の属性を除外するかどうか。デフォルトは `false`です。	XMLの
`Attribute prefix`	属性と要素を区別するための属性の接頭辞。デフォルトは `_`です。	XMLの

列のデータ型

次の列データ型がサポートされています。個々のデータ型の詳細については、「SQLデータ型」を参照してください。

データ型	説明
`BIGINT`	8バイトの符号付き整数
`BOOLEAN`	ブール値（`true` 、 `false`）
`DATE`	タイムゾーンなしの日
`DECIMAL (P,S)`	最大精度の `P` と固定スケールの `S`を持つ数値。
`DOUBLE`	8 バイトの長倍精度の浮動小数点数
`STRING`	文字列の値
`TIMESTAMP`	年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。

既知の問題

複雑なデータ型の特殊文字 (バッククォートやコロンを含むキーを持つ JSON オブジェクトなど) で問題が発生する可能性があります。
一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要があります。ファイルを選択した後にファイルタイプを手動で選択するには、[ 詳細属性] をクリックし、[ ファイルタイプの自動検出] をオフにして、[ JSON] を選択します。
複合型内のネストされたタイムスタンプと小数では、問題が発生する可能性があります。