airflow.providers.yandex.operators.dataproc

InitializationAction

在 DataProc 叢集啟動時執行的初始化操作的資料。

DataprocCreateClusterOperator

建立 Yandex.Cloud Data Proc 叢集。

DataprocBaseOperator

用於處理指定 DataProc 叢集的 Operator 基類。

DataprocDeleteClusterOperator

刪除 Yandex.Cloud Data Proc 叢集。

DataprocCreateHiveJobOperator

在 Data Proc 叢集中執行 Hive 作業。

DataprocCreateMapReduceJobOperator

在 Data Proc 叢集中執行 Mapreduce 作業。

DataprocCreateSparkJobOperator

在 Data Proc 叢集中執行 Spark 作業。

DataprocCreatePysparkJobOperator

在 Data Proc 叢集中執行 Pyspark 作業。

模組內容

class airflow.providers.yandex.operators.dataproc.InitializationAction[source]

在 DataProc 叢集啟動時執行的初始化操作的資料。

uri: str[source]
args: collections.abc.Iterable[str][source]
timeout: int[source]
class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[source]

基類: airflow.models.BaseOperator

建立 Yandex.Cloud Data Proc 叢集。

引數:
  • folder_id (str | None) – 應建立叢集的資料夾 ID。

  • cluster_name (str | None) – 叢集名稱。在資料夾內必須是唯一的。

  • cluster_description (str | None) – 叢集描述。

  • cluster_image_version (str | None) – 叢集映象版本。使用預設值。

  • ssh_public_keys (str | collections.abc.Iterable[str] | None) – 將部署到建立的計算例項的 SSH 公鑰列表。

  • subnet_id (str | None) – 子網 ID。所有 Data Proc 叢集節點將使用一個子網。

  • services (collections.abc.Iterable[str]) – 將安裝到叢集的服務列表。可選的服務:HDFS, YARN, MAPREDUCE, HIVE, TEZ, ZOOKEEPER, HBASE, SQOOP, FLUME, SPARK, SPARK, ZEPPELIN, OOZIE

  • s3_bucket (str | None) – 用於儲存叢集日誌的 Yandex.Cloud S3 儲存桶。如果未指定儲存桶,作業將無法工作。

  • zone (str) – 建立叢集的可用區。當前可用區有 ru-central1-a、ru-central1-b 和 ru-central1-c。

  • service_account_id (str | None) – 叢集的服務賬戶 ID。服務賬戶可以在資料夾內建立。

  • masternode_resource_preset (str | None) – 叢集主節點的資源預設(CPU+RAM 配置)。

  • masternode_disk_size (int | None) – 主節點儲存大小(以 GiB 為單位)。

  • masternode_disk_type (str | None) – 主節點儲存型別。可選型別:network-ssd、network-hdd。

  • datanode_resource_preset (str | None) – 叢集資料節點的資源預設(CPU+RAM 配置)。

  • datanode_disk_size (int | None) – 資料節點儲存大小(以 GiB 為單位)。

  • datanode_disk_type (str | None) – 資料節點儲存型別。可選型別:network-ssd、network-hdd。

  • computenode_resource_preset (str | None) – 叢集計算節點的資源預設(CPU+RAM 配置)。

  • computenode_disk_size (int | None) – 計算節點儲存大小(以 GiB 為單位)。

  • computenode_disk_type (str | None) – 計算節點儲存型別。可選型別:network-ssd、network-hdd。

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • computenode_max_count – 計算節點自動擴縮子叢集的最大節點數。

  • computenode_warmup_duration (int | None) – 例項的熱身時間(以秒為單位)。在此期間,流量會發送到例項,但不收集例項指標。以秒為單位。

  • computenode_stabilization_duration (int | None) – 在例項組減少組中例項數量之前,最短的監控時間(以秒為單位)。在此期間,即使新的指標值表明應該減少例項,組大小也不會減少。以秒為單位。

  • computenode_preemptible (bool) – 可搶佔式例項至少每 24 小時停止一次,並且在 Compute 需要其資源時可以隨時停止。

  • computenode_cpu_utilization_target (int | None) – 定義基於例項組平均 CPU 利用率的自動擴縮規則。以百分比表示,範圍 10-100。預設情況下未設定,將使用預設的自動擴縮策略。

  • computenode_decommission_timeout (int | None) – 在縮容期間優雅地退役節點的超時時間。以秒為單位。

  • properties (dict[str, str] | None) – 傳遞給主節點軟體的屬性。文件:https://cloud.yandex.com/docs/data-proc/concepts/settings-list

  • enable_ui_proxy (bool) – 啟用 UI 代理功能,用於轉發 Hadoop 元件的 Web 介面。文件:https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy

  • host_group_ids (collections.abc.Iterable[str] | None) – 用於放置叢集虛擬機器的專用主機組。文件:https://cloud.yandex.com/docs/compute/concepts/dedicated-host

  • security_group_ids (collections.abc.Iterable[str] | None) – 使用者安全組。文件:https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups

  • log_group_id (str | None) – 寫入日誌的日誌組 ID。預設情況下,日誌將傳送到預設日誌組。要停用雲日誌傳送,請設定叢集屬性 dataproc:disable_cloud_logging = true。文件:https://cloud.yandex.com/docs/data-proc/concepts/logs

  • initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 叢集啟動時要執行的一組初始化操作。文件:https://cloud.yandex.com/docs/data-proc/concepts/init-action

  • labels (dict[str, str] | None) – 叢集標籤,格式為 key:value 對。每個資源不超過 64 個。文件:https://cloud.yandex.com/docs/resource-manager/concepts/labels

folder_id = None[source]
yandex_conn_id = None[source]
cluster_name = None[source]
cluster_description = ''[source]
cluster_image_version = None[source]
ssh_public_keys = None[source]
subnet_id = None[source]
services = ('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK')[source]
s3_bucket = None[source]
zone = 'ru-central1-b'[source]
service_account_id = None[source]
masternode_resource_preset = None[source]
masternode_disk_size = None[source]
masternode_disk_type = None[source]
datanode_resource_preset = None[source]
datanode_disk_size = None[source]
datanode_disk_type = None[source]
datanode_count = 1[source]
computenode_resource_preset = None[source]
computenode_disk_size = None[source]
computenode_disk_type = None[source]
computenode_count = 0[source]
computenode_max_hosts_count = None[source]
computenode_measurement_duration = None[source]
computenode_warmup_duration = None[source]
computenode_stabilization_duration = None[source]
computenode_preemptible = False[source]
computenode_cpu_utilization_target = None[source]
computenode_decommission_timeout = None[source]
properties = None[source]
enable_ui_proxy = False[source]
host_group_ids = None[source]
security_group_ids = None[source]
log_group_id = None[source]
initialization_actions = None[來源]
labels = None[來源]
hook: airflow.providers.yandex.hooks.dataproc.DataprocHook | None = None[來源]
execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

屬性 cluster_id[來源]
airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[來源]

基類: airflow.models.BaseOperator

用於處理指定 DataProc 叢集的 Operator 基類。

引數:
  • connection_id – Yandex.Cloud Airflow 連線的 ID。

  • cluster_id (str | None) – 要刪除的叢集 ID。(模板化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[來源]
cluster_id = None[來源]
yandex_conn_id = None[來源]
抽象 execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[來源]

基類: DataprocBaseOperator

刪除 Yandex.Cloud Data Proc 叢集。

引數:
  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • cluster_id (str | None) – 要刪除的叢集 ID。(模板化)

execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[來源]

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Hive 作業。

引數:
  • query (str | None) – Hive 查詢。

  • query_file_uri (str | None) – 包含 Hive 查詢的指令碼的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 屬性名稱到值的對映,用於配置 Hive。

  • script_variables (dict[str, str] | None) – 查詢變數名稱到值的對映。

  • continue_on_failure (bool) – 如果查詢失敗是否繼續執行查詢。

  • name (str) – 作業名稱。用於標記。

  • cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

query = None[來源]
query_file_uri = None[來源]
script_variables = None[來源]
continue_on_failure = False[來源]
properties = None[來源]
name = 'Hive 作業'[來源]
execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[來源]

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Mapreduce 作業。

引數:
  • main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。可以替代 main_class 指定。

  • main_class (str | None) – 作業主類的名稱。可以替代 main_jar_file_uri 指定。

  • file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作業屬性。

  • args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。

  • name (str) – 作業名稱。用於標記。

  • cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

main_class = None[來源]
main_jar_file_uri = None[來源]
jar_file_uris = None[來源]
archive_uris = None[來源]
file_uris = None[來源]
args = None[來源]
properties = None[來源]
name = 'MapReduce 作業'[來源]
execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[來源]

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Spark 作業。

引數:
  • main_jar_file_uri (str | None) – 包含作業的 jar 檔案的 URI。可以放在 HDFS 或 S3 中。

  • main_class (str | None) – 作業主類的名稱。

  • file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作業屬性。

  • args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。

  • name (str) – 作業名稱。用於標記。

  • cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。

  • repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表,以避免依賴衝突。

main_class = None[來源]
main_jar_file_uri = None[來源]
jar_file_uris = None[來源]
archive_uris = None[來源]
file_uris = None[來源]
args = None[來源]
properties = None[來源]
name = 'Spark 作業'[來源]
packages = None[來源]
repositories = None[來源]
exclude_packages = None[來源]
execute(context)[來源]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]

基類: DataprocBaseOperator

在 Data Proc 叢集中執行 Pyspark 作業。

引數:
  • main_python_file_uri (str | None) – 作業的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。

  • python_file_uris (collections.abc.Iterable[str] | None) – 在作業中使用的 Python 檔案 URI。可以放置在 HDFS 或 S3 中。

  • file_uris (collections.abc.Iterable[str] | None) – 作業中使用的檔案的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作業中使用的歸檔檔案的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作業中使用的 JAR 檔案的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作業屬性。

  • args (collections.abc.Iterable[str] | None) – 傳遞給作業的引數。

  • name (str) – 作業名稱。用於標記。

  • cluster_id (str | None) – 執行作業的叢集 ID。如果指定,將嘗試從 Dataproc Hook 物件獲取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 類路徑中的 jar 的 Maven 座標列表。

  • repositories (collections.abc.Iterable[str] | None) – 搜尋透過 –packages 給定的 Maven 座標的其他遠端倉庫列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析透過 –packages 提供的依賴時要排除的 groupId:artifactId 列表,以避免依賴衝突。

main_python_file_uri = None[source]
python_file_uris = None[source]
jar_file_uris = None[source]
archive_uris = None[source]
file_uris = None[source]
args = None[source]
properties = None[source]
name = 'Pyspark job'[source]
packages = None[source]
repositories = None[source]
exclude_packages = None[source]
execute(context)[source]

建立運算子時派生。

上下文是用於渲染 Jinja 模板的相同字典。

參考 get_template_context 以獲取更多上下文資訊。

此條目有幫助嗎?