airflow.providers.amazon.aws.operators.glue_crawler

GlueCrawlerOperator

建立、更新和觸發 AWS Glue Crawler。

模組內容

class airflow.providers.amazon.aws.operators.glue_crawler.GlueCrawlerOperator(config, poll_interval=5, wait_for_completion=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook]

建立、更新和觸發 AWS Glue Crawler。

AWS Glue Crawler 是一項無伺服器服務,它管理包含 AWS 雲中資料儲存推斷模式、格式和資料型別的元資料表目錄。

另請參閱

有關如何使用此 operator 的更多資訊,請參閱指南:建立 AWS Glue crawler

引數:
  • config – AWS Glue crawler 的配置

  • poll_interval (int) – 兩次檢查 crawler 狀態的連續呼叫之間的等待時間(秒)

  • wait_for_completion (bool) – 是否等待抓取執行完成。(預設值:True)

  • deferrable (bool) – 如果為 True,則 operator 將非同步等待抓取完成。這意味著需要等待完成。此模式需要安裝 aiobotocore 模組。(預設值:False)

  • aws_conn_id – 用於 AWS 憑證的 Airflow 連線。如果為 None 或空,則使用預設的 boto3 行為。如果以分散式方式執行 Airflow 且 aws_conn_id 為 None 或空,則將使用預設的 boto3 配置(並且必須在每個工作節點上維護)。

  • region_name – AWS region_name。如果未指定,則使用預設的 boto3 行為。

  • verify – 是否驗證 SSL 證書。請參閱:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客戶端的配置字典(鍵值對)。請參閱:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
ui_color = '#ededed'[source]
poll_interval = 5[source]
wait_for_completion = True[source]
deferrable = True[source]
config[source]
execute(context)[source]

從 Airflow 執行 AWS Glue Crawler。

返回:

當前 glue crawler 的名稱。

返回型別:

str

execute_complete(context, event=None)[source]

此條目有幫助嗎?