airflow.providers.yandex.operators.dataproc¶
類¶
在 DataProc 叢集啟動時執行的初始化操作的資料。 |
|
建立 Yandex.Cloud Data Proc 叢集。 |
|
用於處理指定 DataProc 叢集的 Operator 基類。 |
|
刪除 Yandex.Cloud Data Proc 叢集。 |
|
在 Data Proc 叢集中執行 Hive 作業。 |
|
在 Data Proc 叢集中執行 Mapreduce 作業。 |
|
在 Data Proc 叢集中執行 Spark 作業。 |
|
在 Data Proc 叢集中執行 Pyspark 作業。 |
模組內容¶
- class airflow.providers.yandex.operators.dataproc.InitializationAction[source]¶
在 DataProc 叢集啟動時執行的初始化操作的資料。
- class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[source]¶
基類:
airflow.models.BaseOperator建立 Yandex.Cloud Data Proc 叢集。
- 引數:
folder_id (str | None) – 應建立叢集的資料夾 ID。
cluster_name (str | None) – 叢集名稱。在資料夾內必須是唯一的。
cluster_description (str | None) – 叢集描述。
cluster_image_version (str | None) – 叢集映象版本。使用預設值。
ssh_public_keys (str | collections.abc.Iterable[str] | None) – 將部署到建立的計算例項的 SSH 公鑰列表。
subnet_id (str | None) – 子網 ID。所有 Data Proc 叢集節點將使用一個子網。
services (collections.abc.Iterable[str]) – 將安裝到叢集的服務列表。可選的服務:HDFS, YARN, MAPREDUCE, HIVE, TEZ, ZOOKEEPER, HBASE, SQOOP, FLUME, SPARK, SPARK, ZEPPELIN, OOZIE
s3_bucket (str | None) – 用於儲存叢集日誌的 Yandex.Cloud S3 儲存桶。如果未指定儲存桶,作業將無法工作。
zone (str) – 建立叢集的可用區。當前可用區有 ru-central1-a、ru-central1-b 和 ru-central1-c。
service_account_id (str | None) – 叢集的服務賬戶 ID。服務賬戶可以在資料夾內建立。
masternode_resource_preset (str | None) – 叢集主節點的資源預設(CPU+RAM 配置)。
masternode_disk_size (int | None) – 主節點儲存大小(以 GiB 為單位)。
masternode_disk_type (str | None) – 主節點儲存型別。可選型別:network-ssd、network-hdd。
datanode_resource_preset (str | None) – 叢集資料節點的資源預設(CPU+RAM 配置)。
datanode_disk_size (int | None) – 資料節點儲存大小(以 GiB 為單位)。
datanode_disk_type (str | None) – 資料節點儲存型別。可選型別:network-ssd、network-hdd。
computenode_resource_preset (str | None) – 叢集計算節點的資源預設(CPU+RAM 配置)。
computenode_disk_size (int | None) – 計算節點儲存大小(以 GiB 為單位)。
computenode_disk_type (str | None) – 計算節點儲存型別。可選型別:network-ssd、network-hdd。
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
computenode_max_count – 計算節點自動擴縮子叢集的最大節點數。
computenode_warmup_duration (int | None) – 例項的熱身時間(以秒為單位)。在此期間,流量會發送到例項,但不收集例項指標。以秒為單位。
computenode_stabilization_duration (int | None) – 在例項組減少組中例項數量之前,最短的監控時間(以秒為單位)。在此期間,即使新的指標值表明應該減少例項,組大小也不會減少。以秒為單位。
computenode_preemptible (bool) – 可搶佔式例項至少每 24 小時停止一次,並且在 Compute 需要其資源時可以隨時停止。
computenode_cpu_utilization_target (int | None) – 定義基於例項組平均 CPU 利用率的自動擴縮規則。以百分比表示,範圍 10-100。預設情況下未設定,將使用預設的自動擴縮策略。
computenode_decommission_timeout (int | None) – 在縮容期間優雅地退役節點的超時時間。以秒為單位。
properties (dict[str, str] | None) – 傳遞給主節點軟體的屬性。文件:https://cloud.yandex.com/docs/data-proc/concepts/settings-list
enable_ui_proxy (bool) – 啟用 UI 代理功能,用於轉發 Hadoop 元件的 Web 介面。文件:https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy
host_group_ids (collections.abc.Iterable[str] | None) – 用於放置叢集虛擬機器的專用主機組。文件:https://cloud.yandex.com/docs/compute/concepts/dedicated-host
security_group_ids (collections.abc.Iterable[str] | None) – 使用者安全組。文件:https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups
log_group_id (str | None) – 寫入日誌的日誌組 ID。預設情況下,日誌將傳送到預設日誌組。要停用雲日誌傳送,請設定叢集屬性 dataproc:disable_cloud_logging = true。文件:https://cloud.yandex.com/docs/data-proc/concepts/logs
initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 叢集啟動時要執行的一組初始化操作。文件:https://cloud.yandex.com/docs/data-proc/concepts/init-action
labels (dict[str, str] | None) – 叢集標籤,格式為 key:value 對。每個資源不超過 64 個。文件:https://cloud.yandex.com/docs/resource-manager/concepts/labels
- hook: airflow.providers.yandex.hooks.dataproc.DataprocHook | None = None[來源]¶
- 類 airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[來源]¶
基類:
airflow.models.BaseOperator用於處理指定 DataProc 叢集的 Operator 基類。
- 引數:
connection_id – Yandex.Cloud Airflow 連線的 ID。
cluster_id (str | None) – 要刪除的叢集 ID。(模板化)
- template_fields: collections.abc.Sequence[str] = ('cluster_id',)[來源]¶
- 類 airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[來源]¶
-
刪除 Yandex.Cloud Data Proc 叢集。
- 引數:
- 類 airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[來源]¶
-
在 Data Proc 叢集中執行 Hive 作業。
- 引數:
- 類 airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[來源]¶
-
在 Data Proc 叢集中執行 Mapreduce 作業。
- 引數:
main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。可以替代 main_class 指定。
main_class (str | None) – 作業主類的名稱。可以替代 main_jar_file_uri 指定。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
- 類 airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[來源]¶
-
在 Data Proc 叢集中執行 Spark 作業。
- 引數:
main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。
main_class (str | None) – 作業主類的名稱。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。
repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表,以避免依賴衝突。
- class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]¶
-
在 Data Proc 叢集中執行 Pyspark 作業。
- 引數:
main_python_file_uri (str | None) – 作業的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。
python_file_uris (collections.abc.Iterable[str] | None) – 在作業中使用的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。
repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表,以避免依賴衝突。