airflow.providers.google.cloud.hooks.dataprep

此模組包含 Google Dataprep hook。

JobGroupStatuses

作業組執行狀態型別。

GoogleDataprepHook

用於連線 Dataprep API 的 hook。

模組內容

class airflow.providers.google.cloud.hooks.dataprep.JobGroupStatuses[source]

Bases: str, enum.Enum

作業組執行狀態型別。

CREATED = 'Created'[source]
UNDEFINED = 'undefined'[source]
IN_PROGRESS = 'InProgress'[source]
COMPLETE = 'Complete'[source]
FAILED = 'Failed'[source]
CANCELED = 'Canceled'[source]
class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]

Bases: airflow.hooks.base.BaseHook

用於連線 Dataprep API 的 hook。

要連線 Dataprep 與 Airflow,您需要 Dataprep token。

https://clouddataprep.com/documentation/api#section/Authentication

它應該以 JSON 格式新增到 Airflow 的 Connection 中。

conn_name_attr = 'dataprep_conn_id'[source]
default_conn_name = 'google_cloud_dataprep_default'[source]
conn_type = 'dataprep'[source]
hook_name = 'Google Dataprep'[source]
dataprep_conn_id = 'google_cloud_dataprep_default'[source]
api_version = 'v4'[source]
get_jobs_for_job_group(job_id)[source]

獲取 Cloud Dataprep 作業中的批處理作業資訊。

引數:

job_id (int) – 將要獲取的作業 ID

get_job_group(job_group_id, embed, include_deleted)[source]

獲取指定的作業組。

作業組是從流中特定節點執行的作業。

引數:
  • job_group_id (int) – 將要獲取的作業 ID

  • embed (str) – 要作為響應一部分拉取的物件的逗號分隔列表

  • include_deleted (bool) – 如果設定為“true”,將包含已刪除的物件

run_job_group(body_request)[source]

建立一個 jobGroup,它以認證使用者身份啟動指定的作業。

這與在應用程式中單擊“執行作業”按鈕執行的操作相同。

要獲取 recipe_id,請參閱 Dataprep API 文件 https://clouddataprep.com/documentation/api#operation/runJobGroup

引數:

body_request (dict) – 您想要執行的 recipe 的識別符號。

create_flow(*, body_request)[source]

建立流。

引數:

body_request (dict) – 要傳送的 POST 請求的正文。有關更多詳細資訊,請參閱 https://clouddataprep.com/documentation/api#operation/createFlow

copy_flow(*, flow_id, name='', description='', copy_datasources=False)[source]

建立提供的流 ID 的副本,以及所有包含的 recipe。

引數:
  • flow_id (int) – 要複製的流的 ID

  • name (str) – 流副本的名稱

  • description (str) – 流副本的描述

  • copy_datasources (bool) – 布林值,用於定義是否應該建立資料輸入的副本。

delete_flow(*, flow_id)[source]

刪除具有提供的 ID 的流。

引數:

flow_id (int) – 要複製的流的 ID

run_flow(*, flow_id, body_request)[source]

執行具有提供的 ID 的流。

引數:
  • flow_id (int) – 要複製的流的 ID

  • body_request (dict) – 要傳送的 POST 請求的正文。

get_job_group_status(*, job_group_id)[source]

檢查 Dataprep 任務的狀態是否已完成。

引數:

job_group_id (int) – 要檢查的作業組 ID

create_imported_dataset(*, body_request)[source]

建立匯入的資料集。

引數:

body_request (dict) – 要傳送的 POST 請求的正文。有關更多詳細資訊,請參閱 https://clouddataprep.com/documentation/api#operation/createImportedDataset

create_wrangled_dataset(*, body_request)[source]

建立整理後的資料集。

引數:

body_request (dict) – 要傳送的 POST 請求的正文。有關更多詳細資訊,請參閱 https://clouddataprep.com/documentation/api#operation/createWrangledDataset

create_output_object(*, body_request)[source]

建立輸出。

引數:

body_request (dict) – 要傳送的 POST 請求的正文。有關更多詳細資訊,請參閱 https://clouddataprep.com/documentation/api#operation/createOutputObject

create_write_settings(*, body_request)[source]

建立寫入設定。

引數:

body_request (dict) – 要傳送的 POST 請求的正文。有關更多詳細資訊,請參閱 https://clouddataprep.com/documentation/api#tag/createWriteSetting

delete_imported_dataset(*, dataset_id)[source]

刪除匯入的資料集。

引數:

dataset_id (int) – 要刪除的匯入資料集的 ID。

此條目有幫助嗎?