Unity Catalog 外部ロケーションを使用したデータのロード
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、データの追加 UIGoogle Cloud Storage を使用して、Unity Catalog 外部ロケーションを使用して 内のデータからマネージドテーブルを作成する方法について説明します。外部ロケーションは、クラウド ストレージ パスと、クラウド ストレージ パスへのアクセスを許可するストレージ認証情報を組み合わせたオブジェクトです。
始める前に
開始する前に、次のものが必要です。
Unity Catalog が有効になっているワークスペース。 詳細については、「 Unity Catalog の設定と管理」を参照してください。
外部ロケーションに対する
READ FILES
権限。 詳細については、「 クラウド ストレージを Databricksに接続するための外部ロケーションを作成する」を参照してください。マネージドテーブルを作成するスキーマに対する
CREATE TABLE
権限、スキーマに対するUSE SCHEMA
権限、および親カタログに対するUSE CATALOG
権限。 詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
ステップ 1: 外部ロケーションへのアクセスを確認する
外部ロケーションへのアクセスを確認するには、次の手順を実行します。
Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
カタログエクスプローラで、「外部データ」(External Data) >「外部ロケーション」(External Locations) をクリックします。
ステップ 2: マネージドテーブルを作成する
マネージドテーブルを作成するには、次の操作を行います。
ワークスペースのサイドバーで、[ + 新規 ] > [データの追加] をクリックします。
データの追加UIで、[ Google Cloud Storage]をクリックします。
ドロップダウン リストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。
ドロップダウンリストからカタログとスキーマを選択します。
(任意)テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性] をクリックし、[ ファイルの種類を自動的に検出する] をオフにして、ファイルの種類を選択します。
形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。
列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
[テーブルを作成] をクリックします。
ファイル・タイプ・フォーマット・オプション
ファイルの種類に応じて、次の形式オプションを使用できます。
フォーマット・オプション |
説明 |
サポートされているファイルの種類 |
---|---|---|
|
列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。 デフォルトはカンマです。 |
CSV |
|
データの解析時に使用するエスケープ文字。 デフォルトは引用符です。 |
CSV |
|
このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。 デフォルトでは有効になっています。 |
CSV |
|
ファイルの種類を自動的に検出します。 デフォルトは |
XMLの |
|
ファイルの内容から列の種類を自動的に検出します。 プレビュー テーブルでタイプを編集できます。 これを false に設定すると、すべての列の型が文字列として推論されます。 デフォルトでは有効になっています。 |
|
|
列の値がファイル内の複数行にまたがることができるかどうか。 デフォルトでは無効です。 |
|
|
複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。 デフォルトでは有効になっています。 |
CSV |
|
ファイル内でコメントを許可するかどうか。 デフォルトでは有効になっています。 |
JSON |
|
ファイル内で一重引用符を使用できるかどうか。 デフォルトでは有効になっています。 |
JSON |
|
タイムスタンプ文字列を デフォルトでは有効になっています。 |
JSON |
|
スキーマと一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルトでは有効になっています。 |
|
|
要素内の属性を除外するかどうか。 デフォルトは |
XMLの |
|
属性と要素を区別するための属性の接頭辞。 デフォルトは |
XMLの |
列のデータ型
次の列データ型がサポートされています。 個々のデータ型の詳細については、「SQLデータ型」を参照してください。
データ型 |
説明 |
---|---|
|
8バイトの符号付き整数 |
|
ブール値( |
|
タイムゾーンなしの日 |
|
最大精度の |
|
8 バイトの長倍精度の浮動小数点数 |
|
文字列の値 |
|
年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。 |