airflow.providers.google.cloud.sensors.dataflow

本模組包含一個 Google Cloud Dataflow 感測器。

DataflowJobStatusSensor

檢查 Google Cloud Dataflow 中作業的狀態。

DataflowJobMetricsSensor

檢查 Google Cloud Dataflow 中與單個作業相關的指標。

DataflowJobMessagesSensor

檢查 Google Cloud Dataflow 中與單個作業相關的作業訊息。

DataflowJobAutoScalingEventsSensor

檢查 Google Cloud Dataflow 中與單個作業相關的自動伸縮事件。

模組內容

class airflow.providers.google.cloud.sensors.dataflow.DataflowJobStatusSensor(*, job_id, expected_statuses, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[原始碼]

基類: airflow.sensors.base.BaseSensorOperator

檢查 Google Cloud Dataflow 中作業的狀態。

另請參閱

有關如何使用此 Operator 的更多資訊,請參閱指南: Sensors(感測器)

引數:
  • job_id (str) – 要檢查的作業 ID。

  • expected_statuses (set[str] | str) – 操作的預期狀態。請參閱: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/projects.jobs#Job.JobState

  • project_id (str) – 可選,要在其中啟動作業的 Google Cloud 專案 ID。如果設定為 None 或缺失,則使用 Google Cloud 連線中的預設 project_id。

  • location (str) – Dataflow 作業的位置(例如 europe-west1)。請參閱: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用於連線 Google Cloud 的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,使用短期憑據模擬,或用於獲取列表中最後一個賬號的 access_token 的鏈式賬號列表,該賬號將在請求中被模擬。如果設定為字串,則原始賬號必須授予此賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予直接前一個身份 Service Account Token Creator IAM 角色,列表中第一個賬號授予此角色給原始賬號(模版化)。

  • deferrable (bool) – 如果為 True,則在 deferrable 模式下執行感測器。

  • poll_interval (int) – 兩次連續檢查作業之間等待的時間(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[原始碼]
job_id[原始碼]
expected_statuses[原始碼]
project_id = None[原始碼]
location = 'us-central1'[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
deferrable = True[原始碼]
poll_interval = 10[原始碼]
poke(context)[原始碼]

從該類派生時覆蓋此方法。

execute(context)[原始碼]

Airflow 在工作器上執行此方法,並使用觸發器進行延遲。

execute_complete(context, event)[原始碼]

當任務在延遲後在工作器上恢復執行時,執行此方法。

如果觸發器返回一個帶有成功狀態的事件,則返回 True,否則引發異常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[原始碼]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMetricsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[原始碼]

基類: airflow.sensors.base.BaseSensorOperator

檢查 Google Cloud Dataflow 中與單個作業相關的指標。

另請參閱

有關如何使用此 Operator 的更多資訊,請參閱指南: Sensors(感測器)

引數:
  • job_id (str) – 要檢查的作業 ID。

  • callback (Callable | None) – 回撥函式,它將使用讀取的作業指標列表呼叫。它可以執行您希望的任何操作。請參閱: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/MetricUpdate

  • fail_on_terminal_state (bool) – 如果設定為 true,當作業處於終端狀態時,感測器將引發 Exception。

  • project_id (str) – 可選,要在其中啟動作業的 Google Cloud 專案 ID。如果設定為 None 或缺失,則使用 Google Cloud 連線中的預設 project_id。

  • location (str) – Dataflow 作業的位置(例如 europe-west1)。請參閱: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用於連線 Google Cloud 的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,使用短期憑據模擬,或用於獲取列表中最後一個賬號的 access_token 的鏈式賬號列表,該賬號將在請求中被模擬。如果設定為字串,則原始賬號必須授予此賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予直接前一個身份 Service Account Token Creator IAM 角色,列表中第一個賬號授予此角色給原始賬號(模版化)。

  • deferrable (bool) – 如果為 True,則在 deferrable 模式下執行感測器。

  • poll_interval (int) – 兩次連續檢查作業之間等待的時間(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[原始碼]
job_id[原始碼]
project_id = None[原始碼]
callback = None[原始碼]
fail_on_terminal_state = True[原始碼]
location = 'us-central1'[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
deferrable = True[原始碼]
poll_interval = 10[原始碼]
poke(context)[原始碼]

從該類派生時覆蓋此方法。

execute(context)[原始碼]

Airflow 在工作器上執行此方法,並使用觸發器進行延遲。

execute_complete(context, event)[原始碼]

當任務在延遲後在工作器上恢復執行時,執行此方法。

如果觸發器返回帶有成功狀態的事件 - 將事件結果傳遞給回撥函式。如果沒有提供回撥函式,則返回事件結果。

如果觸發器返回帶有錯誤狀態的事件 - 引發異常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[原始碼]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMessagesSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[原始碼]

基類: airflow.sensors.base.BaseSensorOperator

檢查 Google Cloud Dataflow 中與單個作業相關的作業訊息。

另請參閱

有關如何使用此 Operator 的更多資訊,請參閱指南: Sensors(感測器)

引數:
  • job_id (str) – 要檢查的 Dataflow 作業 ID。

  • callback (Callable | None) – 一個函式,可以接受序列化的作業訊息列表。它可以執行您希望它做的任何事情。如果未提供回撥函式,則在成功完成時,任務將以 True 值退出。有關作業訊息內容的更多資訊,請參閱: https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.JobMessage

  • fail_on_terminal_state (bool) – 如果設定為 True,當作業達到終端狀態時,感測器將引發異常。不會返回任何作業訊息。

  • project_id (str) – 可選,要在其中啟動作業的 Google Cloud 專案 ID。如果設定為 None 或缺失,則使用 Google Cloud 連線中的預設 project_id。

  • location (str) – Dataflow 作業的位置(例如 europe-west1)。如果設定為 None,則將使用 DEFAULT_DATAFLOW_LOCATION 的值。請參閱: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用於連線 Google Cloud 的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,使用短期憑據模擬,或用於獲取列表中最後一個賬號的 access_token 的鏈式賬號列表,該賬號將在請求中被模擬。如果設定為字串,則原始賬號必須授予此賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予直接前一個身份 Service Account Token Creator IAM 角色,列表中第一個賬號授予此角色給原始賬號(模版化)。

  • deferrable (bool) – 如果為 True,則在 deferrable 模式下執行感測器。

  • poll_interval (int) – 兩次連續檢查作業之間等待的時間(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[原始碼]
job_id[原始碼]
project_id = None[原始碼]
callback = None[原始碼]
fail_on_terminal_state = True[原始碼]
location = 'us-central1'[原始碼]
gcp_conn_id = 'google_cloud_default'[原始碼]
impersonation_chain = None[原始碼]
deferrable = True[原始碼]
poll_interval = 10[原始碼]
poke(context)[原始碼]

從該類派生時覆蓋此方法。

execute(context)[原始碼]

Airflow 在工作器上執行此方法,並使用觸發器進行延遲。

execute_complete(context, event)[原始碼]

當任務在延遲後在工作器上恢復執行時,執行此方法。

如果觸發器返回帶有成功狀態的事件 - 將事件結果傳遞給回撥函式。如果沒有提供回撥函式,則返回事件結果。

如果觸發器返回帶有錯誤狀態的事件 - 引發異常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[原始碼]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobAutoScalingEventsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=60, **kwargs)[source]

基類: airflow.sensors.base.BaseSensorOperator

檢查 Google Cloud Dataflow 中與單個作業相關的自動伸縮事件。

另請參閱

有關如何使用此 Operator 的更多資訊,請參閱指南:感測器

引數:
  • job_id (str) – 要檢查的 Dataflow 作業 ID。

  • callback (Callable | None) – 一個函式,可以接受一個序列化的自動擴縮事件列表。它可以執行任何你希望它執行的操作。如果未提供回撥函式,則在成功完成時任務將以 True 值退出。有關自動擴縮事件內容的更多資訊,請參見:https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.AutoscalingEvent

  • fail_on_terminal_state (bool) – 如果設定為 True,當作業達到終止狀態時,感測器將丟擲異常。不會返回任何自動擴縮事件。

  • project_id (str) – 可選,要在其中啟動作業的 Google Cloud 專案 ID。如果設定為 None 或缺失,則使用 Google Cloud 連線中的預設 project_id。

  • location (str) – Dataflow 作業的位置(例如 europe-west1)。如果設定為 None,則將使用 DEFAULT_DATAFLOW_LOCATION 的值。請參閱: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用於連線 Google Cloud 的連線 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,使用短期憑據模擬,或用於獲取列表中最後一個賬號的 access_token 的鏈式賬號列表,該賬號將在請求中被模擬。如果設定為字串,則原始賬號必須授予此賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予直接前一個身份 Service Account Token Creator IAM 角色,列表中第一個賬號授予此角色給原始賬號(模版化)。

  • deferrable (bool) – 如果為 True,則在 deferrable 模式下執行感測器。

  • poll_interval (int) – 兩次連續檢查作業之間等待的時間(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[source]
job_id[source]
project_id = None[source]
callback = None[source]
fail_on_terminal_state = True[source]
location = 'us-central1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
deferrable = True[source]
poll_interval = 60[source]
poke(context)[source]

從該類派生時覆蓋此方法。

execute(context)[source]

Airflow 在工作器上執行此方法,並使用觸發器進行延遲。

execute_complete(context, event)[source]

當任務在延遲後在工作器上恢復執行時,執行此方法。

如果觸發器返回帶有成功狀態的事件 - 將事件結果傳遞給回撥函式。如果沒有提供回撥函式,則返回事件結果。

如果觸發器返回帶有錯誤狀態的事件 - 引發異常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[source]

此條目有幫助嗎?