airflow.providers.google.cloud.operators.datafusion¶

此模組包含 Google DataFusion 運算子。

類¶

`CloudDataFusionRestartInstanceOperator`	重啟單個 Data Fusion 例項。
`CloudDataFusionDeleteInstanceOperator`	刪除單個 Data Fusion 例項。
`CloudDataFusionCreateInstanceOperator`	在指定的專案和位置建立新的 Data Fusion 例項。
`CloudDataFusionUpdateInstanceOperator`	更新單個 Data Fusion 例項。
`CloudDataFusionGetInstanceOperator`	獲取單個 Data Fusion 例項的詳細資訊。
`CloudDataFusionCreatePipelineOperator`	建立 Cloud Data Fusion 流水線。
`CloudDataFusionDeletePipelineOperator`	刪除 Cloud Data Fusion 流水線。
`CloudDataFusionListPipelinesOperator`	列出 Cloud Data Fusion 流水線。
`CloudDataFusionStartPipelineOperator`	啟動 Cloud Data Fusion 流水線。適用於批處理和流式流水線。
`CloudDataFusionStopPipelineOperator`	停止 Cloud Data Fusion 流水線。適用於批處理和流式流水線。

模組內容¶

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionRestartInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

重啟單個 Data Fusion 例項。

操作結束時，例項會完全重啟。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南: Restart DataFusion Instance

引數:

instance_name (str) – 要重啟的例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
project_id (str) – 例項所屬的 Google Cloud 專案 ID。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeleteInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

刪除單個 Data Fusion 例項。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南: Delete DataFusion Instance

引數:

instance_name (str) – 要重啟的例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
project_id (str) – 例項所屬的 Google Cloud 專案 ID。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreateInstanceOperator(*, instance_name, instance, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在指定的專案和位置建立新的 Data Fusion 例項。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南: Create DataFusion Instance

引數:

instance_name (str) – 要建立的例項名稱。
instance (dict[str, Any]) – Instance 的一個例項。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
location (str) – 要處理請求的 Cloud Data Fusion 位置。
project_id (str) – 例項所屬的 Google Cloud 專案 ID。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

instance[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionUpdateInstanceOperator(*, instance_name, instance, update_mask, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

更新單個 Data Fusion 例項。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南: Update DataFusion Instance

引數:

instance_name (str) – 要建立的例項名稱。
instance (dict[str, Any]) – Instance 的一個例項。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
update_mask (str) – 欄位掩碼用於指定更新將覆蓋例項資源中的哪些欄位。在 updateMask 中指定的欄位是相對於資源的，而不是完整的請求。如果欄位在掩碼中，它將被覆蓋。如果使用者未提供掩碼，所有支援的欄位（當前包括標籤和選項）都將被覆蓋。欄位的完全限定名稱的逗號分隔列表。示例：“user.displayName,photo”。 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf?_ga=2.205612571.-968688242.1573564810#google.protobuf.FieldMask
location (str) – 要處理請求的 Cloud Data Fusion 位置。
project_id (str) – 例項所屬的 Google Cloud 專案 ID。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

update_mask[source]¶

instance_name[source]¶

instance[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionGetInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

獲取單個 Data Fusion 例項的詳細資訊。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南: Get DataFusion Instance

引數:

instance_name (str) – 例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
project_id (str) – 例項所屬的 Google Cloud 專案 ID。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreatePipelineOperator(*, pipeline_name, pipeline, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

建立 Cloud Data Fusion 流水線。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南：建立 DataFusion 流水線

引數:

pipeline_name (str) – 您的流水線名稱。
pipeline (dict[str, Any]) – 流水線定義。更多資訊請檢視：https://docs.cdap.io/cdap/current/en/developer-manual/pipelines/developing-pipelines.html#pipeline-configuration-file-format
instance_name (str) – 例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水線屬於基礎版例項，名稱空間 ID 始終為 default。如果您的流水線屬於企業版例項，您可以建立一個名稱空間。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

operator_extra_links[source]¶

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶

pipeline_name[source]¶

pipeline[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeletePipelineOperator(*, pipeline_name, instance_name, location, version_id=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

刪除 Cloud Data Fusion 流水線。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南：刪除 DataFusion 流水線

引數:

pipeline_name (str) – 您的流水線名稱。
version_id (str | None) – 要刪除的流水線版本
instance_name (str) – 例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水線屬於基礎版例項，名稱空間 ID 始終為 default。如果您的流水線屬於企業版例項，您可以建立一個名稱空間。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'version_id', 'pipeline_name', 'impersonation_chain')[source]¶

pipeline_name[source]¶

version_id = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionListPipelinesOperator(*, instance_name, location, artifact_name=None, artifact_version=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出 Cloud Data Fusion 流水線。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南：列出 DataFusion 流水線

引數:

instance_name (str) – 例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
artifact_version (str | None) – 用於過濾例項的 Artifact 版本
artifact_name (str | None) – 用於過濾例項的 Artifact 名稱
namespace (str) – 如果您的流水線屬於基礎版例項，名稱空間 ID 始終為 default。如果您的流水線屬於企業版例項，您可以建立一個名稱空間。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'artifact_name', 'artifact_version', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

artifact_version = None[source]¶

artifact_name = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStartPipelineOperator(*, pipeline_name, instance_name, location, pipeline_type=DataFusionPipelineType.BATCH, runtime_args=None, success_states=None, namespace='default', pipeline_timeout=5 * 60, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=3.0, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

啟動 Cloud Data Fusion 流水線。適用於批處理和流式流水線。

另請參閱

有關如何使用此運算子的更多資訊，請參閱指南：啟動 DataFusion 流水線

引數:

pipeline_name (str) – 您的流水線名稱。
pipeline_type (airflow.providers.google.cloud.utils.datafusion.DataFusionPipelineType) – 可選的流水線型別（預設為 BATCH）。
instance_name (str) – 例項名稱。
success_states (list[str] | None) – 如果提供，運算子將等待流水線進入提供的狀態之一。
pipeline_timeout (int) – 運算子應等待流水線處於 success_states 之一狀態的時長（秒）。僅當提供 success_states 時有效。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
runtime_args (dict[str, Any] | None) – 可選的執行時引數，用於傳遞給流水線
namespace (str) – 如果您的流水線屬於基礎版例項，名稱空間 ID 始終為 default。如果您的流水線屬於企業版例項，您可以建立一個名稱空間。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。
asynchronous – 在向 Data Fusion API 提交流水線 ID 後立即返回的標誌。這對於提交長時間執行的流水線並使用 CloudDataFusionPipelineStateSensor 非同步等待它們非常有用
deferrable (bool) – 在可延遲模式下執行運算子。與 asynchronous 引數無關。asynchronous 引數提供了使用 sleep() 方法等待流水線達到終止狀態的可能性，而可延遲模式則使用非同步呼叫檢查狀態。不能同時使用 asynchronous 和 deferrable 引數。
poll_interval – 檢查狀態的輪詢週期（秒）。僅在可延遲模式下使用。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'runtime_args', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

pipeline_name[source]¶

pipeline_type[source]¶

runtime_args = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

asynchronous = False[source]¶

pipeline_timeout = 300[source]¶

deferrable = True[source]¶

poll_interval = 3.0[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。

execute_complete(context, event)[source]¶

當觸發器觸發時作為回撥函式執行 - 立即返回。

依賴觸發器丟擲異常，否則假定執行成功。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStopPipelineOperator(*, pipeline_name, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基類: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

停止 Cloud Data Fusion 流水線。適用於批處理和流式流水線。

另請參閱

有關如何使用此 Operator 的更多資訊，請參閱指南： Stop a DataFusion pipeline

引數:

pipeline_name (str) – 您的流水線名稱。
instance_name (str) – 例項名稱。
location (str) – 要處理請求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水線屬於基礎版例項，名稱空間 ID 始終為 default。如果您的流水線屬於企業版例項，您可以建立一個名稱空間。
api_version (str) – 將請求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 獲取連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳號，使用短期憑據進行模擬；或獲取列表中最後一個帳號的 access_token 所需的帳號鏈列表，該帳號將在請求中被模擬。如果設定為字串，該帳號必須向發起請求的帳號授予 Service Account Token Creator IAM 角色。如果設定為序列，列表中的身份必須向緊接的前一個身份授予 Service Account Token Creator IAM 角色，列表中的第一個帳號將此角色授予發起請求的帳號（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

pipeline_name[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在建立運算子時派生。

上下文是與渲染 jinja 模板時使用的相同字典。

有關更多上下文資訊，請參閱 get_template_context。