airflow.providers.yandex.operators.dataproc¶

類¶

`InitializationAction`	在 DataProc 叢集啟動時執行的初始化操作的資料。
`DataprocCreateClusterOperator`	建立 Yandex.Cloud Data Proc 叢集。
`DataprocBaseOperator`	用於處理指定 DataProc 叢集的 Operator 基類。
`DataprocDeleteClusterOperator`	刪除 Yandex.Cloud Data Proc 叢集。
`DataprocCreateHiveJobOperator`	在 Data Proc 叢集中執行 Hive 作業。
`DataprocCreateMapReduceJobOperator`	在 Data Proc 叢集中執行 Mapreduce 作業。
`DataprocCreateSparkJobOperator`	在 Data Proc 叢集中執行 Spark 作業。
`DataprocCreatePysparkJobOperator`	在 Data Proc 叢集中執行 Pyspark 作業。

模組內容¶

class airflow.providers.yandex.operators.dataproc.InitializationAction[source]¶

在 DataProc 叢集啟動時執行的初始化操作的資料。

uri: str[source]¶

args: collections.abc.Iterable[str][source]¶

timeout: int[source]¶

class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[source]¶

基類: airflow.models.BaseOperator

建立 Yandex.Cloud Data Proc 叢集。

引數:

folder_id (str | None) – 應建立叢集的資料夾 ID。
cluster_name (str | None) – 叢集名稱。在資料夾內必須是唯一的。
cluster_description (str | None) – 叢集描述。
cluster_image_version (str | None) – 叢集映象版本。使用預設值。
ssh_public_keys (str | collections.abc.Iterable[str] | None) – 將部署到建立的計算例項的 SSH 公鑰列表。
subnet_id (str | None) – 子網 ID。所有 Data Proc 叢集節點將使用一個子網。
services (collections.abc.Iterable[str]) – 將安裝到叢集的服務列表。可選的服務：HDFS, YARN, MAPREDUCE, HIVE, TEZ, ZOOKEEPER, HBASE, SQOOP, FLUME, SPARK, SPARK, ZEPPELIN, OOZIE
s3_bucket (str | None) – 用於儲存叢集日誌的 Yandex.Cloud S3 儲存桶。如果未指定儲存桶，作業將無法工作。
zone (str) – 建立叢集的可用區。當前可用區有 ru-central1-a、ru-central1-b 和 ru-central1-c。
service_account_id (str | None) – 叢集的服務賬戶 ID。服務賬戶可以在資料夾內建立。
masternode_resource_preset (str | None) – 叢集主節點的資源預設（CPU+RAM 配置）。
masternode_disk_size (int | None) – 主節點儲存大小（以 GiB 為單位）。
masternode_disk_type (str | None) – 主節點儲存型別。可選型別：network-ssd、network-hdd。
datanode_resource_preset (str | None) – 叢集資料節點的資源預設（CPU+RAM 配置）。
datanode_disk_size (int | None) – 資料節點儲存大小（以 GiB 為單位）。
datanode_disk_type (str | None) – 資料節點儲存型別。可選型別：network-ssd、network-hdd。
computenode_resource_preset (str | None) – 叢集計算節點的資源預設（CPU+RAM 配置）。
computenode_disk_size (int | None) – 計算節點儲存大小（以 GiB 為單位）。
computenode_disk_type (str | None) – 計算節點儲存型別。可選型別：network-ssd、network-hdd。
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
computenode_max_count – 計算節點自動擴縮子叢集的最大節點數。
computenode_warmup_duration (int | None) – 例項的熱身時間（以秒為單位）。在此期間，流量會發送到例項，但不收集例項指標。以秒為單位。
computenode_stabilization_duration (int | None) – 在例項組減少組中例項數量之前，最短的監控時間（以秒為單位）。在此期間，即使新的指標值表明應該減少例項，組大小也不會減少。以秒為單位。
computenode_preemptible (bool) – 可搶佔式例項至少每 24 小時停止一次，並且在 Compute 需要其資源時可以隨時停止。
computenode_cpu_utilization_target (int | None) – 定義基於例項組平均 CPU 利用率的自動擴縮規則。以百分比表示，範圍 10-100。預設情況下未設定，將使用預設的自動擴縮策略。
computenode_decommission_timeout (int | None) – 在縮容期間優雅地退役節點的超時時間。以秒為單位。
properties (dict[str, str] | None) – 傳遞給主節點軟體的屬性。文件：https://cloud.yandex.com/docs/data-proc/concepts/settings-list
enable_ui_proxy (bool) – 啟用 UI 代理功能，用於轉發 Hadoop 元件的 Web 介面。文件：https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy
host_group_ids (collections.abc.Iterable[str] | None) – 用於放置叢集虛擬機器的專用主機組。文件：https://cloud.yandex.com/docs/compute/concepts/dedicated-host
security_group_ids (collections.abc.Iterable[str] | None) – 使用者安全組。文件：https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups
log_group_id (str | None) – 寫入日誌的日誌組 ID。預設情況下，日誌將傳送到預設日誌組。要停用雲日誌傳送，請設定叢集屬性 dataproc:disable_cloud_logging = true。文件：https://cloud.yandex.com/docs/data-proc/concepts/logs
initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 叢集啟動時要執行的一組初始化操作。文件：https://cloud.yandex.com/docs/data-proc/concepts/init-action
labels (dict[str, str] | None) – 叢集標籤，格式為 key:value 對。每個資源不超過 64 個。文件：https://cloud.yandex.com/docs/resource-manager/concepts/labels

folder_id = None[source]¶

yandex_conn_id = None[source]¶

cluster_name = None[source]¶

cluster_description = ''[source]¶

cluster_image_version = None[source]¶

ssh_public_keys = None[source]¶

subnet_id = None[source]¶

services = ('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK')[source]¶

s3_bucket = None[source]¶

zone = 'ru-central1-b'[source]¶

service_account_id = None[source]¶

masternode_resource_preset = None[source]¶

masternode_disk_size = None[source]¶

masternode_disk_type = None[source]¶

datanode_resource_preset = None[source]¶

datanode_disk_size = None[source]¶

datanode_disk_type = None[source]¶

datanode_count = 1[source]¶

computenode_resource_preset = None[source]¶

computenode_disk_size = None[source]¶

computenode_disk_type = None[source]¶

computenode_count = 0[source]¶

computenode_max_hosts_count = None[source]¶

computenode_measurement_duration = None[source]¶

computenode_warmup_duration = None[source]¶

computenode_stabilization_duration = None[source]¶

computenode_preemptible = False[source]¶

computenode_cpu_utilization_target = None[source]¶

computenode_decommission_timeout = None[source]¶

properties = None[source]¶

enable_ui_proxy = False[source]¶

host_group_ids = None[source]¶

security_group_ids = None[source]¶

log_group_id = None[source]¶

initialization_actions = None[來源]¶

labels = None[來源]¶

hook: airflow.providers.yandex.hooks.dataproc.DataprocHook | None = None[來源]¶

execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

屬性 cluster_id[來源]¶

類 airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[來源]¶

基類: airflow.models.BaseOperator

用於處理指定 DataProc 叢集的 Operator 基類。

引數:

connection_id – Yandex.Cloud Airflow 連線的 ID。
cluster_id (str | None) – 要刪除的叢集 ID。(模板化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[來源]¶

cluster_id = None[來源]¶

yandex_conn_id = None[來源]¶

抽象 execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

類 airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[來源]¶

基類: DataprocBaseOperator

刪除 Yandex.Cloud Data Proc 叢集。

引數:

connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
cluster_id (str | None) – 要刪除的叢集 ID。(模板化)

execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

類 airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[來源]¶

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Hive 作業。

引數:

query (str | None) – Hive 查詢。
query_file_uri (str | None) – 包含 Hive 查詢的指令碼的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 屬性名稱到值的對映，用於配置 Hive。
script_variables (dict[str, str] | None) – 查詢變數名稱到值的對映。
continue_on_failure (bool) – 如果查詢失敗是否繼續執行查詢。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定，將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

query = None[來源]¶

query_file_uri = None[來源]¶

script_variables = None[來源]¶

continue_on_failure = False[來源]¶

properties = None[來源]¶

name = 'Hive 作業'[來源]¶

execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

類 airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[來源]¶

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Mapreduce 作業。

引數:

main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。可以替代 main_class 指定。
main_class (str | None) – 作業主類的名稱。可以替代 main_jar_file_uri 指定。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作業屬性。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定，將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

main_class = None[來源]¶

main_jar_file_uri = None[來源]¶

jar_file_uris = None[來源]¶

archive_uris = None[來源]¶

file_uris = None[來源]¶

args = None[來源]¶

properties = None[來源]¶

name = 'MapReduce 作業'[來源]¶

execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

類 airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[來源]¶

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Spark 作業。

引數:

main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。
main_class (str | None) – 作業主類的名稱。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作業屬性。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定，將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。
repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表，以避免依賴衝突。

main_class = None[來源]¶

main_jar_file_uri = None[來源]¶

jar_file_uris = None[來源]¶

archive_uris = None[來源]¶

file_uris = None[來源]¶

args = None[來源]¶

properties = None[來源]¶

name = 'Spark 作業'[來源]¶

packages = None[來源]¶

repositories = None[來源]¶

exclude_packages = None[來源]¶

execute(context)[來源]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]¶

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Pyspark 作業。

引數:

main_python_file_uri (str | None) – 作業的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。
python_file_uris (collections.abc.Iterable[str] | None) – 在作業中使用的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。
file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作業屬性。
args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。
name (str) – 作業名稱。用於標記。
cluster_id (str | None) – 執行作業的叢集 ID。如果指定，將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。
repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表，以避免依賴衝突。

main_python_file_uri = None[source]¶

python_file_uris = None[source]¶

jar_file_uris = None[source]¶

archive_uris = None[source]¶

file_uris = None[source]¶

args = None[source]¶

properties = None[source]¶

name = 'Pyspark job'[source]¶

packages = None[source]¶

repositories = None[source]¶

exclude_packages = None[source]¶

execute(context)[source]¶

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。