airflow.providers.amazon.aws.operators.comprehend¶
類¶
這是 Comprehend 服務 operators 的基類 operator(不應直接在 DAGs 中使用)。 |
|
為文件集合建立 Comprehend 個人身份資訊實體檢測任務。 |
|
建立可對文件進行分類的 Comprehend 文件分類器。 |
模組內容¶
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendBaseOperator(input_data_config, output_data_config, data_access_role_arn, language_code, **kwargs)[source]¶
Bases:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]這是 Comprehend 服務 operators 的基類 operator(不應直接在 DAGs 中使用)。
- 引數:
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendStartPiiEntitiesDetectionJobOperator(input_data_config, output_data_config, mode, data_access_role_arn, language_code, start_pii_entities_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]¶
Bases:
ComprehendBaseOperator為文件集合建立 Comprehend 個人身份資訊實體檢測任務。
另請參閱
有關如何使用此 operator 的更多資訊,請參閱指南: 建立 Amazon Comprehend 個人身份資訊實體檢測任務
- 引數:
input_data_config (dict) – 個人身份資訊實體檢測任務的輸入屬性。(模板化)
output_data_config (dict) – 為個人身份資訊實體檢測任務的輸出提供配置引數。(模板化)
mode (str) – 指定輸出是提供個人身份資訊實體的位置 (offsets),還是提供一個已匿名化個人身份資訊實體的檔案。如果您將 mode 引數設定為 ONLY_REDACTION,則必須在 start_pii_entities_kwargs 中提供 RedactionConfig。
data_access_role_arn (str) – 授予 Amazon Comprehend 讀取您輸入資料的 IAM 角色 Amazon Resource Name (ARN)。(模板化)
language_code (str) – 輸入文件的語言。(模板化)
start_pii_entities_kwargs (dict[str, Any] | None) – 要傳遞給任務的任何可選引數。如果在 start_pii_entities_kwargs 中未提供 JobName,operator 將建立它。
wait_for_completion (bool) – 是否等待任務停止。(預設值:True)
waiter_delay (int) – 兩次狀態檢查之間等待的時間(秒)。(預設值:60)
waiter_max_attempts (int) – 檢查任務完成的最大嘗試次數。(預設值:20)
deferrable (bool) – 如果為 True,則 operator 將非同步等待任務停止。這意味著等待完成。此模式需要安裝 aiobotocore 模組。(預設值:False)
aws_conn_id – 用於 AWS 憑據的 Airflow 連線。如果為
None或為空,則使用預設的 boto3 行為。如果以分散式方式執行 Airflow 且 aws_conn_id 為 None 或為空,則將使用預設的 boto3 配置(並且必須在每個 worker 節點上維護)。region_name – AWS region_name。如果未指定,則使用預設的 boto3 行為。
verify – 是否驗證 SSL 證書。請參閱: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客戶端的配置字典(鍵值對)。請參閱: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendCreateDocumentClassifierOperator(document_classifier_name, input_data_config, mode, data_access_role_arn, language_code, fail_on_warnings=False, output_data_config=None, document_classifier_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), aws_conn_id='aws_default', **kwargs)[source]¶
Bases:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]建立可對文件進行分類的 Comprehend 文件分類器。
提供一組帶有類別標籤的訓練文件。
另請參閱
有關如何使用此 operator 的更多資訊,請參閱指南: 建立 Amazon Comprehend 文件分類器
- 引數:
document_classifier_name (str) – 文件分類器的名稱。(模板化)
mode (str) – 指示分類器將以何種模式進行訓練。(模板化)
data_access_role_arn (str) – 授予 Amazon Comprehend 讀取您輸入資料的 IAM 角色 Amazon Resource Name (ARN)。(模板化)
language_code (str) – 輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何語言。所有文件必須使用相同的語言。(模板化)
fail_on_warnings (bool) – 如果設定為 True,當狀態為 TRAINED_WITH_WARNING 時,文件分類器訓練任務將丟擲錯誤。(預設值 False)
output_data_config (dict[str, Any] | None) – 指定自定義分類器任務輸出檔案的位置。對於建立原生文件模型的請求,此引數是必需的。(模板化)
document_classifier_kwargs (dict[str, Any] | None) – 要傳遞給文件分類器的任何可選引數。(模板化)
wait_for_completion (bool) – 是否等待任務停止。(預設值:True)
waiter_delay (int) – 兩次狀態檢查之間等待的時間(秒)。(預設值:60)
waiter_max_attempts (int) – 檢查任務完成的最大嘗試次數。(預設值:20)
deferrable (bool) – 如果為 True,則 operator 將非同步等待任務停止。這意味著等待完成。此模式需要安裝 aiobotocore 模組。(預設值:False)
aws_conn_id (str | None) – 用於 AWS 憑據的 Airflow 連線。如果為
None或為空,則使用預設的 boto3 行為。如果以分散式方式執行 Airflow 且 aws_conn_id 為 None 或為空,則將使用預設的 boto3 配置(並且必須在每個 worker 節點上維護)。region_name – AWS region_name。如果未指定,則使用預設的 boto3 行為。
verify – 是否驗證 SSL 證書。請參閱: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客戶端的配置字典(鍵值對)。請參閱: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][source]¶