airflow.providers.presto.transfers.gcs_to_presto

本模組包含 Google Cloud Storage 到 Presto 的運算子。

GCSToPrestoOperator

將 Google Cloud Storage 中的 CSV 檔案載入到 Presto 表中。

模組內容

class airflow.providers.presto.transfers.gcs_to_presto.GCSToPrestoOperator(*, source_bucket, source_object, presto_table, presto_conn_id='presto_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[source]

基類: airflow.models.BaseOperator

將 Google Cloud Storage 中的 CSV 檔案載入到 Presto 表中。

假設:1. CSV 檔案不包含頭部行 2. 目標 Presto 表已建立幷包含必需的列 3. 可選地,可以提供一個單獨的 JSON 檔案或頭部列表

引數:
  • source_bucket (str) – 包含 csv 檔案的源 GCS 桶

  • source_object (str) – 包括路徑的 csv 檔名

  • presto_table (str) – 用於上傳資料的 presto 表

  • presto_conn_id (str) – 目標 presto 連線 ID

  • gcp_conn_id (str) – (可選)用於連線到 Google Cloud 並與 Google Cloud Storage 服務互動的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑證進行模擬,或者是一個由多個賬號組成的鏈式列表,需要透過該列表獲取最後一個賬號的 access_token,並將在請求中模擬該賬號。如果設定為字串,則起始賬號必須已獲得該服務賬號的“服務賬號令牌建立者”(Service Account Token Creator)IAM 角色。如果設定為序列,則列表中的身份必須向其直接前一個身份授予“服務賬號令牌建立者”IAM 角色,列表中的第一個賬號向起始賬號授予此角色。

template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'presto_table')[source]
source_bucket[source]
source_object[source]
presto_table[source]
presto_conn_id = 'presto_default'[source]
gcp_conn_id = 'google_cloud_default'[source]
schema_fields = None[source]
schema_object = None[source]
impersonation_chain = None[source]
execute(context)[source]

建立運算子時派生。

上下文與渲染 jinja 模板時使用的字典相同。

有關更多上下文資訊,請參閱 get_template_context。

此條目有幫助嗎?