airflow.providers.google.cloud.hooks.dataproc_metastore

此模組包含 Google Cloud Dataproc Metastore Hook。

DataprocMetastoreHook

用於 Google Cloud Dataproc Metastore API 的 Hook。

模組內容

class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[原始碼]

基類: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用於 Google Cloud Dataproc Metastore API 的 Hook。

get_dataproc_metastore_client()[原始碼]

返回 DataprocMetastoreClient。

get_dataproc_metastore_client_v1beta()[原始碼]

返回 DataprocMetastoreClient (來自 v1 beta)。

wait_for_operation(timeout, operation)[原始碼]

等待長時間執行的操作完成。

create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在指定的專案和位置中建立新的備份。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –

    必需。要建立的備份。 name 欄位將被忽略。建立的備份 ID 必須在請求的 backup_id 欄位中提供。

    這對應於 request 例項上的 backup 欄位;如果提供了 request,則不應設定此欄位。

  • backup_id (str) –

    必需。備份的 ID,用作備份名稱的最後一部分。此值必須包含 1 到 64 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 backup_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在指定的專案和位置中建立新的 MetadataImport。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –

    必需。要建立的元資料匯入。 name 欄位將被忽略。建立的元資料匯入 ID 必須在請求的 metadata_import_id 欄位中提供。

    這對應於 request 例項上的 metadata_import 欄位;如果提供了 request,則不應設定此欄位。

  • metadata_import_id (str) –

    必需。元資料匯入的 ID,用作元資料匯入名稱的最後一部分。此值必須包含 1 到 64 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 metadata_import_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在專案和位置中建立元資料儲存服務。

引數:
  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要建立的 Metastore 服務。 name 欄位將被忽略。建立的元資料儲存服務 ID 必須在請求的 service_id 欄位中提供。

    這對應於 request 例項上的 service 欄位;如果提供了 request,則不應設定此欄位。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

刪除單個備份。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • backup_id (str) –

    必需。備份的 ID,用作備份名稱的最後一部分。此值必須包含 1 到 64 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 backup_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

刪除單個服務。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從服務匯出元資料。

引數:
  • destination_gcs_folder (str) – 資料夾的 Cloud Storage URI,格式為 gs://<bucket_name>/<path_inside_bucket>。將在其下方建立一個包含匯出檔案的子資料夾 <export_folder>

  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 可選。資料庫轉儲的型別。如果未指定,預設為 MYSQL

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[原始碼]

獲取單個服務的詳細資訊。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從服務獲取備份。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • backup_id (str) – 必需。用於恢復的元資料儲存服務備份 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

列出服務中的備份。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • page_size (int | None) – 可選。要返回的最大備份數。響應可能包含少於最大數量的備份。如果未指定,則最多返回 500 個備份。最大值為 1000;超過 1000 的值將更改為 1000。

  • page_token (str | None) – 可選。頁面令牌,從上一次 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 呼叫中接收。提供此令牌以檢索後續頁面。要檢索第一頁,請提供一個空頁面令牌。分頁時,提供給 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他引數必須與提供頁面令牌的呼叫匹配。

  • filter (str | None) – 可選。應用於列表結果的過濾條件。

  • order_by (str | None) – 可選。按排序順序中所述指定結果的排序方式。如果未指定,結果將按預設順序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從備份恢復服務。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • backup_project_id (str) – 必需。用於恢復的元資料儲存服務備份所屬的 Google Cloud 專案 ID。

  • backup_region (str) – 必需。用於恢復的元資料儲存服務備份所屬的 Google Cloud 區域 ID。

  • backup_service_id (str) – 必需。用於恢復的元資料儲存服務備份 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

  • backup_id (str) – 必需。用於恢復的元資料儲存服務備份 ID。

  • restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 可選。恢復型別。如果未指定,預設為 METADATA_ONLY

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

更新單個服務的引數。

引數:
  • project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必需。元資料儲存服務的 ID,用作元資料儲存服務名稱的最後一部分。此值必須包含 2 到 63 個字元(含),以字母開頭,以字母或數字結尾,並且只能包含字母數字 ASCII 字元或連字元。

    這對應於 request 例項上的 service_id 欄位;如果提供了 request,則不應設定此欄位。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要更新的元資料儲存服務。伺服器僅在 update_mask 中指定了欄位時才合併服務中的欄位。

    元資料儲存服務的 name 欄位用於標識要更新的元資料儲存服務。

    這對應於 request 例項上的 service 欄位;如果提供了 request,則不應設定此欄位。

  • update_mask (google.protobuf.field_mask_pb2.FieldMask) –

    必需。用於指定在元資料儲存服務資源中透過更新覆蓋的欄位的欄位掩碼。 update_mask 中指定的欄位相對於資源(而非完整請求)。如果在掩碼中,則該欄位會被覆蓋。

    這對應於 request 例項上的 update_mask 欄位;如果提供了 request,則不應設定此欄位。

  • request_id (str | None) – 可選。用於標識請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些錯誤(如果有)應該重試。

  • timeout (float | None) – 此請求的超時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應隨請求作為元資料傳送的字串。

list_hive_partitions(project_id, service_id, region, table, partition_names=None)[原始碼]

列出 Hive 分割槽。

引數:
  • project_id (str) – 可選。dbt Cloud 專案的 ID。

  • service_id (str) – 必需。Dataproc Metastore 服務 ID。

  • region (str) – 必需。服務所屬的 Google Cloud 區域 ID。

  • table (str) – 必需。分割槽表的名稱。

  • partition_names (list[str] | None) – 可選。要等待的表分割槽列表。分割槽名稱應類似於“ds=1”,或在多個分割槽的情況下類似於“a=1/b=2”。請注意,您不能使用類似於 HivePartitionSensor 中的邏輯或比較運算子。如果未指定,則感測器將等待至少一個分割槽,無論其名稱如何。

此條目是否有幫助?