airflow.providers.google.cloud.operators.translate¶
此模組包含 Google Translate 運算子。
類¶
翻譯字串或字串列表。 |
|
翻譯適量的文字內容,對於大量文字請使用 TranslateTextBatchOperator。 |
|
根據提供的輸入翻譯大量文字內容。 |
|
建立一個 Google Cloud Translate 資料集。 |
|
獲取專案中原生的 Google Cloud Translation 資料集列表。 |
|
將資料匯入翻譯資料集。 |
|
刪除翻譯資料集及其所有內容。 |
|
建立一個 Google Cloud Translate 模型。 |
|
獲取專案中原生的 Google Cloud Translation 模型列表。 |
|
刪除翻譯模型及其所有內容。 |
|
翻譯提供的文件。 |
|
透過輸入和輸出配置翻譯提供的文件。 |
|
建立一個 Google Cloud Translation 術語表。 |
|
使用提供的值更新術語表項。 |
|
獲取專案中的翻譯術語表列表。 |
|
刪除一個 Google Cloud Translation 術語表。 |
模組內容¶
- class airflow.providers.google.cloud.operators.translate.CloudTranslateTextOperator(*, values, target_language, format_, source_language, model, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator翻譯字串或字串列表。
另請參閱
有關如何使用此運算子的更多資訊,請參閱指南: CloudTranslateTextOperator
參閱 https://cloud.google.com/translate/docs/translating-text
Execute 方法返回 str 或 list。
這是每個查詢值的字典列表。每個字典通常包含三個鍵(儘管並非所有情況都存在)
detectedSourceLanguage: 文字的檢測到的語言(作為 ISO 639-1 語言程式碼)。translatedText: 將文字翻譯成的目標語言。input: 對應的輸入值。model: 用於翻譯文字的模型。
如果只傳入一個值,則只將一個字典設定為 XCom 返回值。
- 引數:
target_language (str) – 將結果翻譯成的語言。這是 API 所必需的。
format – (可選)
text或html之一,用於指定輸入文字是純文字還是 HTML。source_language (str | None) – (可選) 要翻譯的文字的語言。
model (str) – (可選) 用於翻譯文字的模型,例如
'base'或'nmt'。impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('values', 'target_language', 'format_', 'source_language', 'model', 'gcp_conn_id',...[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateTextOperator(*, contents, source_language_code=None, target_language_code, mime_type=None, location=None, project_id=PROVIDE_PROJECT_ID, model=None, transliteration_config=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator翻譯適量的文字內容,對於大量文字請使用 TranslateTextBatchOperator。
封裝了 Google Cloud Translate Text(高階)功能。參閱 https://cloud.google.com/translate/docs/advanced/translating-text-v3
- 有關如何使用此運算子的更多資訊,請參閱指南
- 引數:
project_id (str) – 可選。服務所屬的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str | None) – 可選。服務所屬的 Google Cloud 位置 ID。如果未指定,則使用“global”。使用 AutoML 模型或自定義術語表的請求需要非全域性位置。
contents (collections.abc.Sequence[str]) – 必需。要翻譯的內容字串序列。限制為 1024 個專案,總計推薦 30_000 個碼點。
mime_type (str | None) – 可選。源文字的格式,如果留空,MIME 型別預設為 "text/html"。
source_language_code (str | None) – 可選。如果已知,則為輸入文字的 ISO-639 語言程式碼。如果未指定,則嘗試自動識別。
target_language_code (str) – 必需。用於翻譯輸入文字的 ISO-639 語言程式碼。
model (str | None) –
可選。此翻譯請求的
model型別。如果未提供,將使用預設的 Google 模型 (NMT)。格式取決於模型型別AutoML Translation 模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}通用(內建)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt翻譯 LLM 模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/translation-llm
對於全域性(非區域)請求,使用“global”
location-id。glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可選。要應用的術語表。
transliteration_config (google.cloud.translate_v3.types.TransliterationConfig | None) – 可選。要應用的音譯配置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定哪些錯誤(如果有)應該重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('contents', 'target_language_code', 'mime_type', 'source_language_code', 'model',...[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateTextBatchOperator(*, project_id=PROVIDE_PROJECT_ID, location, target_language_codes, source_language_code, input_configs, output_config, models=None, glossaries=None, labels=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator根據提供的輸入翻譯大量文字內容。
封裝了 Google Cloud Translate Text(高階)功能。參閱 https://cloud.google.com/translate/docs/advanced/batch-translation
有關如何使用此運算子的更多資訊,請參閱指南: TranslateTextBatchOperator。
- 引數:
project_id (str) – 可選。服務所屬的 Google Cloud 專案 ID。如果未指定,將使用 hook 的 project_id。
location (str) – 必需。服務所屬的 Google Cloud 位置 ID(非全域性)。
source_language_code (str) – 必需。源語言程式碼。
target_language_codes (collections.abc.MutableSequence[str]) – 必需。此處最多允許 10 個語言程式碼。
input_configs (google.cloud.translate_v3.types.InputConfig | dict]) – 必需。輸入配置。匹配的檔案總數應小於等於 100。內容總大小應小於等於 100M Unicode 碼點。檔案必須使用 UTF-8 編碼。
models (str | None) –
可選。用於翻譯的模型。Map 的鍵是目標語言程式碼。Map 的值是模型名稱。值可以是內建的通用模型,或 AutoML Translation 模型。值格式取決於模型型別
AutoML Translation 模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}通用(內建)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
如果 map 為空,或未針對特定語言對請求特定模型,則使用預設的 Google 模型 (NMT)。
output_config (google.cloud.translate_v3.types.OutputConfig | dict) – 必需。輸出配置。
glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 可選。用於翻譯的術語表。它以目標語言程式碼為鍵。
labels (collections.abc.MutableMapping[str, str] | None) – 可選。具有使用者定義元資料的標籤。有關更多資訊,請參閱 https://cloud.google.com/translate/docs/advanced/labels。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定哪些錯誤(如果有)應該重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('input_configs', 'target_language_codes', 'source_language_code', 'models', 'glossaries',...[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateCreateDatasetOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator建立一個 Google Cloud Translate 資料集。
使用 API V3 建立原生翻譯資料集。有關如何使用此運算子的更多資訊,請參閱指南:TranslateCreateDatasetOperator。
- 引數:
dataset (dict | google.cloud.translate_v3.types.automl_translation.Dataset) – 要建立的資料集。如果提供了字典,則必須與 automl_translation.Dataset 型別對應。如果提供了字典,則必須與 protobuf 訊息 InputConfig 的形式相同。
project_id (str) – 資料集所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定哪些錯誤(如果有)應該重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDatasetsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator獲取專案中原生的 Google Cloud Translation 資料集列表。
使用 API V3 獲取專案的原生翻譯資料集列表。有關如何使用此運算子的更多資訊,請參閱指南:TranslateDatasetsListOperator。
- 引數:
project_id (str) – 資料集所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateImportDataOperator(*, dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator將資料匯入翻譯資料集。
使用 API V3 將資料載入到翻譯資料集。有關如何使用此運算子的更多資訊,請參閱指南:TranslateImportDataOperator。
- 引數:
dataset_id (str) – 要匯入資料的目標原生資料集的 dataset_id。
input_config (dict | google.cloud.translate_v3.types.DatasetInputConfig) – 期望的翻譯語言對檔案的輸入位置。如果提供了字典,則必須遵循 DatasetInputConfig 的結構。如果提供了字典,則必須與 protobuf 訊息 InputConfig 的形式相同。
project_id (str) – 資料集所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'input_config', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDeleteDatasetOperator(*, dataset_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator刪除翻譯資料集及其所有內容。
使用 API V3 刪除翻譯資料集及其資料。有關如何使用此運算子的更多資訊,請參閱指南:TranslateDeleteDatasetOperator。
- 引數:
dataset_id (str) – 要刪除的目標原生資料集的 dataset_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateCreateModelOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset_id, display_name, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator建立一個 Google Cloud Translate 模型。
使用 API V3 建立一個“原生”翻譯模型。有關如何使用此運算子的更多資訊,請參閱指南:TranslateCreateModelOperator。
- 引數:
dataset_id (str) – 用於模型訓練的資料集 ID。
project_id (str) – 資料集所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateModelsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator獲取專案中原生的 Google Cloud Translation 模型列表。
使用 API V3 獲取專案的“原生”翻譯模型列表。有關如何使用此運算子的更多資訊,請參閱指南:TranslateModelsListOperator。
- 引數:
project_id (str) – 資料集所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDeleteModelOperator(*, model_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator刪除翻譯模型及其所有內容。
使用 API V3 刪除翻譯模型及其資料。有關如何使用此運算子的更多資訊,請參閱指南:TranslateDeleteModelOperator。
- 引數:
model_id (str) – 要刪除的目標原生模型的 model_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('model_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDocumentOperator(*, location=None, project_id=PROVIDE_PROJECT_ID, source_language_code=None, target_language_code, document_input_config, document_output_config=None, customized_attribution=None, is_translate_native_pdf_only=False, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, model=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator翻譯提供的文件。
封裝了 Google Cloud Translate Text(高階)功能。支援多種輸入/輸出檔案型別,詳情請訪問 https://cloud.google.com/translate/docs/advanced/translate-documents。
- 有關如何使用此運算子的更多資訊,請參閱指南
- 引數:
project_id (str) – 可選。服務所屬的 Google Cloud 專案 ID。如果未指定,將使用 hook 的 project_id。
source_language_code (str | None) – 可選。如果已知,則為輸入文件文字的 ISO-639 語言程式碼。如果未指定源語言,API 將嘗試自動識別源語言並在響應中返回源語言。
target_language_code (str) – 必需。用於翻譯輸入文件文字的 ISO-639 語言程式碼。
location (str | None) – 可選。用於發起呼叫的專案或位置。必須引用呼叫者的專案。如果未指定,則使用“global”。使用 AutoML 模型或自定義詞彙表的請求需要非全域性位置。模型和詞彙表必須位於同一區域(具有相同的 location-id)。
document_input_config (google.cloud.translate_v3.types.DocumentInputConfig | dict) – 文件翻譯請求輸入配置。
document_output_config (google.cloud.translate_v3.types.DocumentOutputConfig | dict | None) – 可選。文件翻譯請求輸出配置。如果未提供,翻譯後的檔案將僅透過位元組流返回,並且其輸出 MIME 型別將與輸入檔案的 MIME 型別相同。
customized_attribution (str | None) – 可選。此標誌用於支援使用者自定義歸屬資訊。如果未提供,預設值為
Machine Translated by Google。自定義歸屬資訊應遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的規則is_translate_native_pdf_only (bool) – 可選。面向外部客戶的引數。如果為 True,線上原生 PDF 翻譯的頁面限制為 300 頁,且僅翻譯原生 PDF 頁面。
enable_shadow_removal_native_pdf (bool) – 可選。如果為 True,則使用文字移除伺服器移除原生 PDF 翻譯中背景影像上的陰影文字。陰影移除功能僅在
is_translate_native_pdf_only和pdf_native_only均為 False 時才能啟用。enable_rotation_correction (bool) – 可選。如果為 True,則在 DVS 中啟用自動旋轉校正。
model (str | None) –
可選。此翻譯請求的
model型別。如果未提供,將使用預設的 Google 模型 (NMT)。格式取決於模型型別AutoML Translation 模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}通用(內建)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
如果未提供,將使用預設的 Google 模型 (NMT) 進行翻譯。
glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可選。要應用的術語表。
transliteration_config – 可選。要應用的音譯配置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定哪些錯誤(如果有)應該重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('source_language_code', 'target_language_code', 'document_input_config',...[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDocumentBatchOperator(*, project_id=PROVIDE_PROJECT_ID, source_language_code, target_language_codes=None, location=None, input_configs, output_config, customized_attribution=None, format_conversions=None, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, models=None, glossaries=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator透過輸入和輸出配置翻譯提供的文件。
每個操作最多支援 10 種目標語言。封裝了 Google Cloud Translate Text (高階) 功能。參見 https://cloud.google.com/translate/docs/advanced/batch-translation。
有關如何使用此 Operator 的更多資訊,請參閱指南: TranslateDocumentBatchOperator。
- 引數:
project_id (str) – 必需。服務所屬的 Google Cloud 專案 ID。
source_language_code (str) – 可選。輸入文字的 ISO-639 語言程式碼(如果已知)。如果未指定源語言,API 將嘗試自動識別源語言,並在響應中返回源語言。
target_language_codes (collections.abc.MutableSequence[str] | None) – 必需。用於翻譯輸入文件的 ISO-639 語言程式碼。此處最多指定 10 個語言程式碼。
location (str | None) – 可選。用於發起呼叫的專案或位置。必須引用呼叫者的專案。如果未指定,則使用“global”。使用 AutoML 模型或自定義詞彙表的請求需要非全域性位置。模型和詞彙表必須位於同一區域(具有相同的 location-id)。
input_configs (collections.abc.MutableSequence[google.cloud.translate_v3.types.BatchDocumentInputConfig | dict]) – 輸入配置。匹配檔案的總數應 <= 100。要翻譯的總內容大小應 <= 100M Unicode 程式碼點。檔案必須使用 UTF-8 編碼。
output_config (google.cloud.translate_v3.types.BatchDocumentOutputConfig | dict) – 輸出配置。如果 2 個輸入配置匹配到同一個檔案(即相同的輸入路徑),則不會為重複的輸入生成輸出。
format_conversions (collections.abc.MutableMapping[str, str] | None) –
可選。應用於所有輸入檔案的檔案格式轉換對映。對映的鍵是原始 mime_type。對映的值是翻譯後文檔的目標 mime_type。支援的檔案格式轉換包括
application/pdf轉為application/vnd.openxmlformats-officedocument.wordprocessingml.document
如果未指定,輸出檔案將與原始檔案格式相同。
customized_attribution (str | None) – 可選。此標誌用於支援使用者自定義歸屬資訊。如果未提供,預設值為
Machine Translated by Google。自定義歸屬資訊應遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的規則enable_shadow_removal_native_pdf (bool) – 可選。如果為 True,則使用文字移除伺服器移除原生 PDF 翻譯中背景影像上的陰影文字。陰影移除功能僅在
is_translate_native_pdf_only和pdf_native_only均為 False 時才能啟用。enable_rotation_correction (bool) – 可選。如果為 True,則在 DVS 中啟用自動旋轉校正。
models (collections.abc.MutableMapping[str, str] | None) –
可選。用於翻譯的模型。對映的鍵是目標語言程式碼。對映的值是模型名稱。值可以是內建的通用模型,也可以是 AutoML Translation 模型。值格式取決於模型型別
AutoML Translation 模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}通用(內建)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt,
如果對映為空或未針對某個語言對請求特定模型,則使用預設的 Google 模型 (NMT)。
glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 要應用的詞彙表。以目標語言程式碼為鍵。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定哪些錯誤(如果有)應該重試。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('input_configs', 'output_config', 'target_language_codes', 'source_language_code', 'models',...[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateCreateGlossaryOperator(*, project_id=PROVIDE_PROJECT_ID, location, glossary_id, input_config, language_pair=None, language_codes_set=None, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator建立一個 Google Cloud Translation 術語表。
使用 API V3 建立翻譯詞彙表。有關如何使用此 Operator 的更多資訊,請參閱指南: TranslateCreateGlossaryOperator。
- 引數:
glossary_id (str) – 使用者指定的 ID,用於構建詞彙表資源名稱。
input_config (google.cloud.translate_v3.types.translation_service.GlossaryInputConfig | dict) – 用於構建詞彙表的示例輸入配置。總詞彙表不得超過 10M Unicode 程式碼點。輸入檔案中不應包含表頭,因為語言資訊已透過
language_pair或language_codes_set引數指定。language_pair (google.cloud.translate_v3.types.translation_service.Glossary.LanguageCodePair | dict | None) – 用於建立詞彙表的語言程式碼對。用於構建單向詞彙表。如果指定此項,
language_codes_set應為空。language_codes_set (google.cloud.translate_v3.types.translation_service.Glossary.LanguageCodesSet | collections.abc.MutableSequence[str] | None) – 用於建立等效術語集詞彙表的語言程式碼集。意味著多種語言對映。如果指定此項,
language_pair應為空。project_id (str) – 詞彙表所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('glossary_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateUpdateGlossaryOperator(*, project_id=PROVIDE_PROJECT_ID, location, glossary_id, new_display_name, new_input_config=None, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator使用提供的值更新術語表項。
使用翻譯 API V3 更新翻譯詞彙表。僅允許更新
display_name和input_config欄位。有關如何使用此 Operator 的更多資訊,請參閱指南: TranslateUpdateGlossaryOperator。
- 引數:
glossary_id (str) – 使用者指定的 ID,用於構建詞彙表資源名稱。
input_config – 用於構建詞彙表的示例的輸入配置。詞彙表總大小不得超過 10M Unicode 碼位。輸入檔案表格中不應包含標題行,因為語言已透過
language_pair或language_codes_set引數指定。language_pair – 用於建立詞彙表的語言程式碼對。用於構建單向詞彙表。如果指定此引數,則
language_codes_set應為空。language_codes_set – 用於建立等效術語集詞彙表的語言程式碼集。表示多種語言對映。如果指定此引數,則
language_pair應為空。project_id (str) – 詞彙表所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('glossary_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateListGlossariesOperator(*, project_id=PROVIDE_PROJECT_ID, location, page_size=None, page_token=None, filter_str=None, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator獲取專案中的翻譯術語表列表。
使用 Translation API V3 列出翻譯詞彙表。
有關如何使用此 Operator 的更多資訊,請參閱指南:TranslateListGlossariesOperator。
- 引數:
project_id (str) – 詞彙表所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
page_size (int | None) – 請求的頁大小,如果未設定,伺服器將使用適當的預設值。
page_token (str | None) – 標識伺服器應返回的結果頁面的令牌。如果
page_token為空或缺失,則返回第一頁。filter_str (str | None) – 指定列表操作約束的過濾器。透過“key=value”的格式指定約束,其中 key 必須是
src或tgt,value 必須是有效的語言程式碼。對於多個限制,使用“AND”(僅限大寫)連線,例如:src=en-US AND tgt=zh-CN。請注意,此處使用的是精確匹配,這意味著使用“en-US”和“en”可能會導致不同的結果,這取決於您建立詞彙表時使用的語言程式碼。對於單向詞彙表,src和tgt分別對源語言程式碼和目標語言程式碼新增限制。對於等效術語集詞彙表,src和/或tgt對術語集新增限制。例如:src=en-US AND tgt=zh-CN將僅選取源語言程式碼和目標語言程式碼精確匹配en-US和zh-CN的單向詞彙表,但將選取其語言集中包含en-US和zh-CN的所有等效術語集詞彙表。如果缺失,則不執行過濾。location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDeleteGlossaryOperator(*, project_id=PROVIDE_PROJECT_ID, location, glossary_id, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基類:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator刪除一個 Google Cloud Translation 術語表。
使用 API V3 刪除翻譯詞彙表。有關如何使用此 Operator 的更多資訊,請參閱指南:TranslateDeleteGlossaryOperator。
- 引數:
glossary_id (str) – 使用者指定的 ID,用於刪除詞彙表資源項。
project_id (str) – 詞彙表所在的 Google Cloud 專案 ID。如果未提供,則使用預設 project_id。
location (str) – 專案的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些(如果有)錯誤應重試。
timeout (float | None) – 此請求的超時時間。
metadata (collections.abc.Sequence[tuple[str, str]]) – 應作為元資料隨請求傳送的字串。
gcp_conn_id (str) – 連線到 Google Cloud 時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務賬號,用於使用短期憑據進行模擬,或者獲取列表中最後一個賬號的 access_token 所需的賬號鏈列表,該賬號將在請求中被模擬。如果設定為字串,則該賬號必須授予發起賬號 Service Account Token Creator IAM 角色。如果設定為序列,則列表中的身份必須授予緊接前一個身份 Service Account Token Creator IAM 角色,列表中的第一個賬號授予發起賬號此角色(模板化)。
- template_fields: collections.abc.Sequence[str] = ('glossary_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶