Unity Catalog 外部ロケーションを使用したデータのロード

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、データの追加 UIGoogle Cloud Storage を使用して、Unity Catalog 外部ロケーションを使用して 内のデータからマネージドテーブルを作成する方法について説明します。外部ロケーションは、クラウド ストレージ パスと、クラウド ストレージ パスへのアクセスを許可するストレージ認証情報を組み合わせたオブジェクトです。

始める前に

開始する前に、次のものが必要です。

ファイルの種類

次のファイルタイプがサポートされています。

  • CSV

  • TSV

  • JSON

  • XMLの

  • AVRO

  • PARQUET

ステップ 1: 外部ロケーションへのアクセスを確認する

外部ロケーションへのアクセスを確認するには、次の手順を実行します。

  1. Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。

  2. カタログエクスプローラで、「外部データ」(External Data) >「外部ロケーション」(External Locations) をクリックします。

ステップ 2: マネージドテーブルを作成する

マネージドテーブルを作成するには、次の操作を行います。

  1. ワークスペースのサイドバーで、[ + 新規 ] > [データの追加] をクリックします。

  2. データの追加UIで、[ Google Cloud Storage]をクリックします。

  3. ドロップダウン リストから外部ロケーションを選択します。

  4. Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。

  5. ドロップダウンリストからカタログとスキーマを選択します。

  6. (任意)テーブル名を編集します。

  7. (オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性] をクリックし、[ ファイルの種類を自動的に検出する] をオフにして、ファイルの種類を選択します。

    形式オプションの一覧については、次のセクションを参照してください。

  8. (オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。

    列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。

  9. (オプション)列タイプを編集するには、タイプのアイコンをクリックします。

  10. [テーブルを作成] をクリックします。

ファイル・タイプ・フォーマット・オプション

ファイルの種類に応じて、次の形式オプションを使用できます。

フォーマット・オプション

説明

サポートされているファイルの種類

Column delimiter

列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。

デフォルトはカンマです。

CSV

Escape character

データの解析時に使用するエスケープ文字。

デフォルトは引用符です。

CSV

First row contains the header

このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。

デフォルトでは有効になっています。

CSV

Automatically detect file type

ファイルの種類を自動的に検出します。 デフォルトは trueです。

XMLの

Automatically detect column types

ファイルの内容から列の種類を自動的に検出します。 プレビュー テーブルでタイプを編集できます。 これを false に設定すると、すべての列の型が文字列として推論されます。

デフォルトでは有効になっています。

  • CSV

  • JSON

  • XMLの

Rows span multiple lines

列の値がファイル内の複数行にまたがることができるかどうか。

デフォルトでは無効です。

  • CSV

  • JSON

Merge the schema across multiple files

複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。

デフォルトでは有効になっています。

CSV

Allow comments

ファイル内でコメントを許可するかどうか。

デフォルトでは有効になっています。

JSON

Allow single quotes

ファイル内で一重引用符を使用できるかどうか。

デフォルトでは有効になっています。

JSON

Infer timestamp

タイムスタンプ文字列を TimestampTypeとして推論するかどうか。

デフォルトでは有効になっています。

JSON

Rescued data column

スキーマと一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。

デフォルトでは有効になっています。

  • CSV

  • JSON

  • AVRO

  • PARQUET

Exclude attribute

要素内の属性を除外するかどうか。 デフォルトは falseです。

XMLの

Attribute prefix

属性と要素を区別するための属性の接頭辞。 デフォルトは _です。

XMLの

列のデータ型

次の列データ型がサポートされています。 個々のデータ型の詳細については、「SQLデータ型」を参照してください。

データ型

説明

BIGINT

8バイトの符号付き整数

BOOLEAN

ブール値(truefalse

DATE

タイムゾーンなしの日

DECIMAL (P,S)

最大精度の P と固定スケールの Sを持つ数値。

DOUBLE

8 バイトの長倍精度の浮動小数点数

STRING

文字列の値

TIMESTAMP

年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。

既知の問題

  • 複雑なデータ型の特殊文字 (バッククォートやコロンを含むキーを持つ JSON オブジェクトなど) で問題が発生する可能性があります。

  • 一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要があります。 ファイルを選択した後にファイルタイプを手動で選択するには、[ 詳細属性] をクリックし、[ ファイルタイプの自動検出] をオフにして、[ JSON] を選択します。

  • 複合型内のネストされたタイムスタンプと小数では、問題が発生する可能性があります。