airflow.providers.google.cloud.sensors.dataplex

本模組包含 Google Dataplex 感測器。

TaskState

Dataplex 任務狀態。

DataplexTaskStateSensor

檢查 Dataplex 任務的狀態。

DataplexDataQualityJobStatusSensor

檢查 Dataplex 資料質量作業的狀態。

DataplexDataProfileJobStatusSensor

檢查 Dataplex 資料概要分析作業的狀態。

模組內容

class airflow.providers.google.cloud.sensors.dataplex.TaskState[原始碼]

Dataplex 任務狀態。

STATE_UNSPECIFIED = 0[原始碼]
ACTIVE = 1[原始碼]
CREATING = 2[原始碼]
DELETING = 3[原始碼]
ACTION_REQUIRED = 4[原始碼]
class airflow.providers.google.cloud.sensors.dataplex.DataplexTaskStateSensor(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[原始碼]

繼承自: airflow.sensors.base.BaseSensorOperator

檢查 Dataplex 任務的狀態。

引數:
  • project_id (str) – 必需。任務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。任務所屬的 Google Cloud 區域 ID。

  • lake_id (str) – 必需。任務所屬的 Google Cloud lake ID。

  • dataplex_task_id (str) – 必需。任務識別符號。

  • api_version (str) – 將請求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的附加元資料。

  • gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用於使用短期憑據模擬的可選服務帳號,或者獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表,該帳號將在請求中被模擬。如果設定為字串,則該帳號必須授予發起帳號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊鄰的前一個身份 Service Account Token Creator IAM 角色,列表中第一個帳號將此角色授予發起帳號(模板化)。

template_fields = ['dataplex_task_id'][原始碼]
project_id[原始碼]
region[原始碼]
lake_id[原始碼]
dataplex_task_id[原始碼]
api_version = 'v1'[原始碼]
retry[原始碼]
metadata = ()[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
poke(context)[原始碼]

派生此類時重寫此方法。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataQualityJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[原始碼]

繼承自: airflow.sensors.base.BaseSensorOperator

檢查 Dataplex 資料質量作業的狀態。

引數:
  • project_id (str) – 必需。任務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。任務所屬的 Google Cloud 區域 ID。

  • data_scan_id (str) – 必需。資料質量掃描識別符號。

  • job_id (str) – 必需。作業 ID。

  • api_version (str) – 將請求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的附加元資料。

  • gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用於使用短期憑據模擬的可選服務帳號,或者獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表,該帳號將在請求中被模擬。如果設定為字串,則該帳號必須授予發起帳號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊鄰的前一個身份 Service Account Token Creator IAM 角色,列表中第一個帳號將此角色授予發起帳號(模板化)。

  • result_timeout (float) – 運算子等待資料質量掃描結果的秒數。如果在指定秒數後未找到結果,則丟擲異常。

  • fail_on_dq_failure (bool) – 如果設定為 True 且並非所有資料質量掃描規則都已透過,則會丟擲異常。如果設定為 False 且並非所有資料質量掃描規則都已透過,則執行將成功結束。

返回:

布林值,指示作業執行是否已達到 DataScanJob.State.SUCCEEDED 狀態。

template_fields = ['job_id'][原始碼]
project_id[原始碼]
region[原始碼]
data_scan_id[原始碼]
job_id[原始碼]
api_version = 'v1'[原始碼]
retry[原始碼]
metadata = ()[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
fail_on_dq_failure = False[原始碼]
result_timeout = 600.0[原始碼]
start_sensor_time = None[原始碼]
poke(context)[原始碼]

派生此類時重寫此方法。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataProfileJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[原始碼]

繼承自: airflow.sensors.base.BaseSensorOperator

檢查 Dataplex 資料概要分析作業的狀態。

引數:
  • project_id (str) – 必需。任務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。任務所屬的 Google Cloud 區域 ID。

  • data_scan_id (str) – 必需。資料質量掃描識別符號。

  • job_id (str) – 必需。作業 ID。

  • api_version (str) – 將請求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的附加元資料。

  • gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用於使用短期憑據模擬的可選服務帳號,或者獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表,該帳號將在請求中被模擬。如果設定為字串,則該帳號必須授予發起帳號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊鄰的前一個身份 Service Account Token Creator IAM 角色,列表中第一個帳號將此角色授予發起帳號(模板化)。

  • result_timeout (float) – 運算子等待資料質量掃描結果的秒數。如果在指定秒數後未找到結果,則丟擲異常。

返回:

布林值,指示作業執行是否已達到 DataScanJob.State.SUCCEEDED 狀態。

template_fields = ['job_id'][原始碼]
project_id[原始碼]
region[原始碼]
data_scan_id[原始碼]
job_id[原始碼]
api_version = 'v1'[原始碼]
retry[原始碼]
metadata = ()[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
result_timeout = 600.0[原始碼]
start_sensor_time = None[原始碼]
poke(context)[原始碼]

派生此類時重寫此方法。

此條目是否有幫助?