airflow.providers.trino.transfers.gcs_to_trino

此模組包含從 Google Cloud Storage 到 Trino 的 Operator。

GCSToTrinoOperator

將 CSV 檔案從 Google Cloud Storage 載入到 Trino 表中。

模組內容

class airflow.providers.trino.transfers.gcs_to_trino.GCSToTrinoOperator(*, source_bucket, source_object, trino_table, trino_conn_id='trino_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[原始碼]

基類: airflow.models.BaseOperator

將 CSV 檔案從 Google Cloud Storage 載入到 Trino 表中。

假設: 1. CSV 檔案不應包含表頭 2. 具有所需列的 Trino 表已建立 3. (可選)可以提供一個單獨的包含表頭的 JSON 檔案

引數:
  • source_bucket (str) – 包含 CSV 檔案的源 GCS 儲存桶

  • source_object (str) – 包括路徑的 CSV 檔案

  • trino_table (str) – 上傳資料的 Trino 表

  • trino_conn_id (str) – 目標 Trino 連線

  • gcp_conn_id (str) – (可選)用於連線 Google Cloud 並與 Google Cloud Storage 服務互動的連線 ID。

  • schema_fields (collections.abc.Iterable[str] | None) – 要填充到表中的列名。如果提供了 schema_fields,schema object 中提供的任何路徑將

  • schema_object (str | None) – 包含 schema 欄位的 JSON 檔案

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – (可選)要使用短期憑據模擬的服務帳戶,或是獲取列表中最後一個帳戶的 access_token 所需的帳戶鏈列表,最後一個帳戶將在請求中被模擬。如果設定為字串,該帳戶必須授予發起帳戶 Service Account Token Creator IAM 角色。如果設定為序列,列表中的身份必須授予緊前身份 Service Account Token Creator IAM 角色,列表中第一個帳戶將此角色授予發起帳戶。

template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'trino_table')[原始碼]
source_bucket[原始碼]
source_object[原始碼]
trino_table[原始碼]
trino_conn_id = 'trino_default'[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
schema_fields = None[原始碼]
schema_object = None[原始碼]
impersonation_chain = None[原始碼]
execute(context)[原始碼]

在建立 operator 時派生。

Context 是用於渲染 jinja 模板的同一字典。

請參閱 get_template_context 以獲取更多 context。

此條目有幫助嗎?