airflow.providers.amazon.aws.hooks.glue_crawler

GlueCrawlerHook

與 AWS Glue Crawler 互動。

模組內容

class airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook(*args, **kwargs)[source]

Bases: airflow.providers.amazon.aws.hooks.base_aws.AwsBaseHook

與 AWS Glue Crawler 互動。

提供對 boto3.client("glue") 的輕量級封裝。

可以指定附加引數(例如 aws_conn_id),這些引數將傳遞給底層的 AwsBaseHook。

property glue_client[source]
返回:

AWS Glue 客戶端

has_crawler(crawler_name)[source]

檢查爬蟲是否已存在。

引數:

crawler_name – 每個 AWS 賬戶獨有的爬蟲名稱

返回:

如果爬蟲已存在則返回 True,否則返回 False。

返回型別:

bool

get_crawler(crawler_name)[source]

獲取爬蟲配置。

引數:

crawler_name (str) – 每個 AWS 賬戶獨有的爬蟲名稱

返回:

巢狀的爬蟲配置字典

返回型別:

dict

update_crawler(**crawler_kwargs)[source]

更新爬蟲配置。

引數:

crawler_kwargs – 用於定義爬蟲配置的關鍵字引數

返回:

如果爬蟲已更新則返回 True,否則返回 False

返回型別:

bool

update_tags(crawler_name, crawler_tags)[source]

更新爬蟲標籤。

引數:
  • crawler_name (str) – 需要更新標籤的爬蟲名稱

  • crawler_tags (dict) – 新標籤字典。如果為空,則刪除所有標籤

返回:

如果標籤已更新則返回 True,否則返回 False

返回型別:

bool

create_crawler(**crawler_kwargs)[source]

建立一個 AWS Glue Crawler。

引數:

crawler_kwargs – 用於定義建立爬蟲所用配置的關鍵字引數

返回:

爬蟲名稱

返回型別:

str

start_crawler(crawler_name)[source]

觸發 AWS Glue Crawler。

引數:

crawler_name (str) – 每個 AWS 賬戶獨有的爬蟲名稱

返回:

空字典

返回型別:

dict

wait_for_crawler_completion(crawler_name, poll_interval=5)[source]

等待 Glue 爬蟲完成;返回最新爬取的狀態,或引發 AirflowException。

引數:
  • crawler_name (str) – 每個 AWS 賬戶獨有的爬蟲名稱

  • poll_interval (int) – 兩次連續檢查爬蟲狀態呼叫的等待時間(秒)

返回:

爬蟲狀態

返回型別:

str

這篇條目有用嗎?