airflow.providers.amazon.aws.operators.comprehend

ComprehendBaseOperator

這是 Comprehend 服務 operators 的基類 operator(不應直接在 DAGs 中使用)。

ComprehendStartPiiEntitiesDetectionJobOperator

為文件集合建立 Comprehend 個人身份資訊實體檢測任務。

ComprehendCreateDocumentClassifierOperator

建立可對文件進行分類的 Comprehend 文件分類器。

模組內容

class airflow.providers.amazon.aws.operators.comprehend.ComprehendBaseOperator(input_data_config, output_data_config, data_access_role_arn, language_code, **kwargs)[source]

Bases: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]

這是 Comprehend 服務 operators 的基類 operator(不應直接在 DAGs 中使用)。

引數:
  • input_data_config (dict) – 個人身份資訊實體檢測任務的輸入屬性。(模板化)

  • output_data_config (dict) – 為個人身份資訊實體檢測任務的輸出提供配置引數。(模板化)

  • data_access_role_arn (str) – 授予 Amazon Comprehend 讀取您輸入資料的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 輸入文件的語言。(模板化)

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
template_fields_renderers: ClassVar[dict][source]
input_data_config[source]
output_data_config[source]
data_access_role_arn[source]
language_code[source]
property client: boto3.client[source]

建立並返回 Comprehend 客戶端。

abstract execute(context)[source]

必須在子類中重寫。

class airflow.providers.amazon.aws.operators.comprehend.ComprehendStartPiiEntitiesDetectionJobOperator(input_data_config, output_data_config, mode, data_access_role_arn, language_code, start_pii_entities_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

Bases: ComprehendBaseOperator

為文件集合建立 Comprehend 個人身份資訊實體檢測任務。

另請參閱

有關如何使用此 operator 的更多資訊,請參閱指南: 建立 Amazon Comprehend 個人身份資訊實體檢測任務

引數:
  • input_data_config (dict) – 個人身份資訊實體檢測任務的輸入屬性。(模板化)

  • output_data_config (dict) – 為個人身份資訊實體檢測任務的輸出提供配置引數。(模板化)

  • mode (str) – 指定輸出是提供個人身份資訊實體的位置 (offsets),還是提供一個已匿名化個人身份資訊實體的檔案。如果您將 mode 引數設定為 ONLY_REDACTION,則必須在 start_pii_entities_kwargs 中提供 RedactionConfig。

  • data_access_role_arn (str) – 授予 Amazon Comprehend 讀取您輸入資料的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 輸入文件的語言。(模板化)

  • start_pii_entities_kwargs (dict[str, Any] | None) – 要傳遞給任務的任何可選引數。如果在 start_pii_entities_kwargs 中未提供 JobName,operator 將建立它。

  • wait_for_completion (bool) – 是否等待任務停止。(預設值:True)

  • waiter_delay (int) – 兩次狀態檢查之間等待的時間(秒)。(預設值:60)

  • waiter_max_attempts (int) – 檢查任務完成的最大嘗試次數。(預設值:20)

  • deferrable (bool) – 如果為 True,則 operator 將非同步等待任務停止。這意味著等待完成。此模式需要安裝 aiobotocore 模組。(預設值:False)

  • aws_conn_id – 用於 AWS 憑據的 Airflow 連線。如果為 None 或為空,則使用預設的 boto3 行為。如果以分散式方式執行 Airflow 且 aws_conn_id 為 None 或為空,則將使用預設的 boto3 配置(並且必須在每個 worker 節點上維護)。

  • region_name – AWS region_name。如果未指定,則使用預設的 boto3 行為。

  • verify – 是否驗證 SSL 證書。請參閱: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客戶端的配置字典(鍵值對)。請參閱: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

mode[source]
start_pii_entities_kwargs[source]
wait_for_completion = True[source]
waiter_delay = 60[source]
waiter_max_attempts = 20[source]
deferrable = True[source]
execute(context)[source]

必須在子類中重寫。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.comprehend.ComprehendCreateDocumentClassifierOperator(document_classifier_name, input_data_config, mode, data_access_role_arn, language_code, fail_on_warnings=False, output_data_config=None, document_classifier_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), aws_conn_id='aws_default', **kwargs)[source]

Bases: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]

建立可對文件進行分類的 Comprehend 文件分類器。

提供一組帶有類別標籤的訓練文件。

另請參閱

有關如何使用此 operator 的更多資訊,請參閱指南: 建立 Amazon Comprehend 文件分類器

引數:
  • document_classifier_name (str) – 文件分類器的名稱。(模板化)

  • input_data_config (dict[str, Any]) – 指定任務輸入資料的格式和位置。(模板化)

  • mode (str) – 指示分類器將以何種模式進行訓練。(模板化)

  • data_access_role_arn (str) – 授予 Amazon Comprehend 讀取您輸入資料的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何語言。所有文件必須使用相同的語言。(模板化)

  • fail_on_warnings (bool) – 如果設定為 True,當狀態為 TRAINED_WITH_WARNING 時,文件分類器訓練任務將丟擲錯誤。(預設值 False)

  • output_data_config (dict[str, Any] | None) – 指定自定義分類器任務輸出檔案的位置。對於建立原生文件模型的請求,此引數是必需的。(模板化)

  • document_classifier_kwargs (dict[str, Any] | None) – 要傳遞給文件分類器的任何可選引數。(模板化)

  • wait_for_completion (bool) – 是否等待任務停止。(預設值:True)

  • waiter_delay (int) – 兩次狀態檢查之間等待的時間(秒)。(預設值:60)

  • waiter_max_attempts (int) – 檢查任務完成的最大嘗試次數。(預設值:20)

  • deferrable (bool) – 如果為 True,則 operator 將非同步等待任務停止。這意味著等待完成。此模式需要安裝 aiobotocore 模組。(預設值:False)

  • aws_conn_id (str | None) – 用於 AWS 憑據的 Airflow 連線。如果為 None 或為空,則使用預設的 boto3 行為。如果以分散式方式執行 Airflow 且 aws_conn_id 為 None 或為空,則將使用預設的 boto3 配置(並且必須在每個 worker 節點上維護)。

  • region_name – AWS region_name。如果未指定,則使用預設的 boto3 行為。

  • verify – 是否驗證 SSL 證書。請參閱: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客戶端的配置字典(鍵值對)。請參閱: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
template_fields_renderers: ClassVar[dict][source]
document_classifier_name[source]
input_data_config[source]
mode[source]
data_access_role_arn[source]
language_code[source]
fail_on_warnings = False[source]
output_data_config = None[source]
document_classifier_kwargs[source]
wait_for_completion = True[source]
waiter_delay = 60[source]
waiter_max_attempts = 20[source]
deferrable = True[source]
aws_conn_id = 'aws_default'[source]
execute(context)[source]

建立 operator 時派生。

Context 是與渲染 jinja 模板時使用的相同的字典。

有關更多 context 資訊,請參閱 get_template_context。

execute_complete(context, event=None)[source]

本條目有幫助嗎?