airflow.providers.amazon.aws.operators.sagemaker

屬性

DEFAULT_CONN_ID

CHECK_INTERVAL_SECOND

SageMakerBaseOperator

這是所有 SageMaker 運算子的基礎運算子。

SageMakerProcessingOperator

使用 Amazon SageMaker Processing 在 Amazon SageMaker 上分析資料並評估機器學習模型。

SageMakerEndpointConfigOperator

建立一個終端節點配置,Amazon SageMaker 託管服務使用該配置來部署模型。

SageMakerEndpointOperator

建立無伺服器終端節點時,SageMaker 會為您預置和管理計算資源。

SageMakerTransformOperator

啟動轉換作業。

SageMakerTuningOperator

啟動超引數調優作業。

SageMakerModelOperator

在 Amazon SageMaker 中建立模型。

SageMakerTrainingOperator

啟動模型訓練作業。

SageMakerDeleteModelOperator

刪除 SageMaker 模型。

SageMakerStartPipelineOperator

啟動 SageMaker 流水線執行。

SageMakerStopPipelineOperator

停止 SageMaker 流水線執行。

SageMakerRegisterModelVersionOperator

透過建立一個指定所屬模型組的模型版本來註冊 SageMaker 模型。

SageMakerAutoMLOperator

建立一個自動機器學習作業,從透過 S3 提供的資料中學習預測給定的列。

SageMakerCreateExperimentOperator

建立一個 SageMaker 實驗,然後將其關聯到作業等。

SageMakerCreateNotebookOperator

建立一個 SageMaker Notebook。

SageMakerStopNotebookOperator

停止一個 Notebook 例項。

SageMakerDeleteNotebookOperator

刪除一個 Notebook 例項。

SageMakerStartNoteBookOperator

啟動一個 Notebook 例項。

函式

serialize(result)

模組內容

airflow.providers.amazon.aws.operators.sagemaker.DEFAULT_CONN_ID: str = 'aws_default'[source]
airflow.providers.amazon.aws.operators.sagemaker.CHECK_INTERVAL_SECOND: int = 30[source]
airflow.providers.amazon.aws.operators.sagemaker.serialize(result)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerBaseOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基類: airflow.models.BaseOperator

這是所有 SageMaker 運算子的基礎運算子。

引數:

config (dict) – 啟動訓練作業所需的配置(模板化的)

template_fields: collections.abc.Sequence[str] = ('config',)[source]
template_ext: collections.abc.Sequence[str] = ()[source]
template_fields_renderers: ClassVar[dict][source]
ui_color: str = '#ededed'[source]
integer_fields: list[list[Any]] = [][source]
config[source]
aws_conn_id = 'aws_default'[source]
parse_integer(config, field)[source]

用於解析包含整數值的字串欄位為整數的遞迴方法。

parse_config_integers()[source]

解析整數字段為 int 型別,以防配置由 Jinja 渲染且所有欄位都是 str。

expand_role()[source]

呼叫 boto3 的 expand_role 方法,該方法將 IAM 角色名展開為 ARN。

preprocess_config()[source]

將配置處理為可用形式。

abstract execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

property hook[source]

返回 SageMakerHook。

static path_to_s3_dataset(path)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerProcessingOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, print_log=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, action_if_job_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

使用 Amazon SageMaker Processing 在 Amazon SageMaker 上分析資料並評估機器學習模型。

透過 Processing,您可以在 SageMaker 上使用簡化的託管體驗來執行資料處理工作負載,例如特徵工程、資料驗證、模型評估和模型解釋。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 處理作業

引數:
  • config (dict) – 啟動處理作業所需的配置(模板化的)。有關配置引數的詳細資訊,請參閱 SageMaker.Client.create_processing_job()

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • wait_for_completion (bool) – 如果 wait 設定為 True,操作檢查處理作業狀態的時間間隔(以秒為單位)。

  • print_log (bool) – 運算子在處理期間是否應列印 CloudWatch 日誌

  • check_interval (int) – 如果 wait 設定為 true,這是運算子檢查處理作業狀態的時間間隔(以秒為單位)

  • max_attempts (int | None) – 在返回當前狀態之前輪詢查詢狀態的次數,預設為 None。

  • max_ingestion_time (int | None) – 如果 wait 設定為 True,則如果處理作業未在 max_ingestion_time 秒內完成,操作將失敗。如果您將此引數設定為 None,則操作不會超時。

  • action_if_job_exists (str) – 如果作業名稱已存在時的行為。可能的選項是“timestamp”(預設)和“fail”。

  • deferrable (bool) – 在可延遲模式下執行運算子。這僅在 wait_for_completion 設定為 True 時有效。

返回 Dict:

返回在 Amazon SageMaker 中建立的處理作業的 ARN。

action_if_job_exists = 'timestamp'[source]
wait_for_completion = True[source]
print_log : bool = True[source]
check_interval: int = 30[source]
max_attempts: int | None = 60[source]
max_ingestion_time: int | None = None[source]
deferrable: bool = True[source]
serialized_job: dict[source]
expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回從 SageMaker API 響應(由處理作業儲存)中收集的 OpenLineage 資料。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerEndpointConfigOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基類: SageMakerBaseOperator

建立一個終端節點配置,Amazon SageMaker 託管服務使用該配置來部署模型。

在配置中,您指定要部署的一個或多個使用 CreateModel API 建立的模型以及您希望 Amazon SageMaker 預置的資源。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 終端節點配置作業

引數:
返回 Dict:

返回在 Amazon SageMaker 中建立的終端節點配置的 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerEndpointOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_ingestion_time=None, operation='create', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

建立無伺服器終端節點時,SageMaker 會為您預置和管理計算資源。

然後,您可以向該終端節點發送推理請求並接收模型預測結果。SageMaker 會根據需要擴充套件或縮減計算資源以處理您的請求流量。

需要一個終端節點配置。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 終端節點作業

引數:
  • config (dict) –

    建立終端節點所需的配置。

    如果您需要基於已存在的 SageMaker 模型和已存在的 SageMaker 終端節點配置建立 SageMaker 終端節點

    config = endpoint_configuration
    

    如果您需要同時建立 SageMaker 模型、SageMaker 終端節點配置和 SageMaker 終端節點

    config = {
        "Model": model_configuration,
        "EndpointConfig": endpoint_config_configuration,
        "Endpoint": endpoint_configuration,
    }
    

    有關 model_configuration 配置引數的詳細資訊,請參閱 SageMaker.Client.create_model()

    有關 endpoint_config_configuration 配置引數的詳細資訊,請參閱 SageMaker.Client.create_endpoint_config()

    有關 endpoint_configuration 配置引數的詳細資訊,請參閱 SageMaker.Client.create_endpoint()

  • wait_for_completion (bool) – 運算子是否應等待直到終端節點建立完成。

  • check_interval (int) – 如果 wait 設定為 True,這是此操作在輪詢終端節點建立狀態之前等待的時間間隔(以秒為單位)。

  • max_ingestion_time (int | None) – 如果 wait 設定為 True,並且端點建立未在 max_ingestion_time 秒內完成,則此操作將失敗。如果將此引數設定為 None,則操作不會超時。

  • operation (str) – 是建立端點還是更新端點。必須是 ‘create’ 或 ‘update’。

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • deferrable (bool) – 將非同步等待完成。

返回 Dict:

Returns 在 Amazon SageMaker 中建立的端點的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_ingestion_time = 36000[source]
operation = ''[source]
deferrable = True[source]
expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTransformOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, check_if_job_exists=True, action_if_job_exists='timestamp', check_if_model_exists=True, action_if_model_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

啟動轉換作業。

轉換作業使用訓練好的模型對資料集進行推斷,並將結果儲存到您指定的 Amazon S3 位置。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 轉換作業

引數:
  • config (dict) –

    啟動轉換作業所需的配置(模板化)。

    如果您需要基於現有 SageMaker 模型建立 SageMaker 轉換作業

    config = transform_config
    

    如果您需要同時建立 SageMaker 模型和 SageMaker 轉換作業

    config = {"Model": model_config, "Transform": transform_config}
    

    有關 `transform_config` 配置引數的詳細資訊,請參閱SageMaker.Client.create_transform_job()

    有關 `model_config` 配置引數的詳細資訊,請參閱:SageMaker.Client.create_model()

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • wait_for_completion (bool) – 設定為 True 以等待直到轉換作業完成。

  • check_interval (int) – 如果 wait 設定為 True,則此操作等待檢查轉換作業狀態的時間間隔(秒)。

  • max_attempts (int | None) – 在返回當前狀態之前輪詢查詢狀態的次數,預設為 None。

  • max_ingestion_time (int | None) – 如果 wait 設定為 True,並且轉換作業未在 max_ingestion_time 秒內完成,則此操作將失敗。如果將此引數設定為 None,則操作不會超時。

  • check_if_job_exists (bool) – 如果設定為 True,則運算子將檢查配置中的名稱是否已存在相應的轉換作業。

  • action_if_job_exists (str) – 作業名稱已存在時的行為。可能的選項包括 “timestamp”(預設)和 “fail”。此引數僅在 check_if_job_exists 為 True 時相關。

返回 Dict:

Returns 在 Amazon SageMaker 中建立的模型的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_attempts = 60[source]
max_ingestion_time = None[source]
check_if_job_exists = True[source]
check_if_model_exists = True[source]
deferrable = True[source]
serialized_model: dict[source]
serialized_transform: dict[source]
expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
serialize_result(job_name)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回從轉換作業儲存的 SageMaker API 響應中收集的 OpenLineage 資料。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTuningOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_ingestion_time=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

啟動超引數調優作業。

超引數調優作業透過使用您選擇的演算法和在您指定的範圍內的超引數值,對您的資料集執行許多訓練作業來找到模型的最佳版本。然後,它會選擇導致模型效能最佳的超引數值,效能透過您選擇的目標指標進行衡量。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:啟動超引數調優作業

引數:
  • config (dict) –

    啟動調優作業所需的配置(模板化)。

    有關配置引數的詳細資訊,請參閱SageMaker.Client.create_hyper_parameter_tuning_job()

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • wait_for_completion (bool) – 設定為 True 以等待直到調優作業完成。

  • check_interval (int) – 如果 wait 設定為 True,則此操作等待檢查調優作業狀態的時間間隔(秒)。

  • max_ingestion_time (int | None) – 如果 wait 設定為 True,並且調優作業未在 max_ingestion_time 秒內完成,則此操作將失敗。如果將此引數設定為 None,則操作不會超時。

  • deferrable (bool) – 將非同步等待完成。

返回 Dict:

Returns 在 Amazon SageMaker 中建立的調優作業的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_ingestion_time = None[source]
deferrable = True[source]
expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerModelOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基類: SageMakerBaseOperator

在 Amazon SageMaker 中建立模型。

在請求中,您為模型命名並描述一個主容器。對於主容器,您需要指定包含推斷程式碼、工件(來自先前的訓練)以及在部署模型進行預測時推斷程式碼使用的自定義環境對映的 Docker 映象。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 模型

引數:
返回 Dict:

Returns 在 Amazon SageMaker 中建立的模型的 ARN。

expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTrainingOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, print_log=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, check_if_job_exists=True, action_if_job_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

啟動模型訓練作業。

訓練完成後,Amazon SageMaker 會將生成的模型工件儲存到您指定的 Amazon S3 位置。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立 Amazon SageMaker 訓練作業

引數:
  • config (dict) –

    啟動訓練作業所需的配置(模板化)。

    有關配置引數的詳細資訊,請參閱SageMaker.Client.create_training_job()

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • wait_for_completion (bool) – 如果 wait 設定為 True,則此操作等待檢查訓練作業狀態的時間間隔(秒)。

  • print_log (bool) – 運算子在訓練期間是否應列印 CloudWatch 日誌

  • check_interval (int) – 如果 wait 設定為 True,這是運算子檢查訓練作業狀態的時間間隔(秒)

  • max_attempts (int | None) – 在返回當前狀態之前輪詢查詢狀態的次數,預設為 None。

  • max_ingestion_time (int | None) – 如果 wait 設定為 True,並且訓練作業未在 max_ingestion_time 秒內完成,則此操作將失敗。如果將此引數設定為 None,則操作不會超時。

  • check_if_job_exists (bool) – 如果設定為 True,則運算子將檢查配置中的名稱是否已存在相應的訓練作業。

  • action_if_job_exists (str) – 作業名稱已存在時的行為。可能的選項包括 “timestamp”(預設)和 “fail”。此引數僅在 check_if_job_exists 為 True 時相關。

  • deferrable (bool) – 在可延遲模式下執行運算子。這僅在 wait_for_completion 設定為 True 時有效。

返回 Dict:

Returns 在 Amazon SageMaker 中建立的訓練作業的 ARN。

wait_for_completion = True[source]
print_log = True[source]
check_interval = 30[source]
max_attempts = 60[source]
max_ingestion_time = None[source]
check_if_job_exists = True[source]
deferrable = True[source]
serialized_training_data: dict[source]
expand_role()[source]

將 IAM 角色名展開為 ARN。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
serialize_result(job_name)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回從 SageMaker API 響應中收集並由訓練作業儲存的 OpenLineage 資料。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerDeleteModelOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基類: SageMakerBaseOperator

刪除 SageMaker 模型。

另請參閱

有關如何使用此操作器的更多資訊,請參閱指南: 刪除 Amazon SageMaker 模型

引數:
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStartPipelineOperator(*, aws_conn_id=DEFAULT_CONN_ID, pipeline_name, display_name='airflow-triggered-execution', pipeline_params=None, wait_for_completion=False, check_interval=CHECK_INTERVAL_SECOND, waiter_max_attempts=9999, verbose=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

啟動 SageMaker 流水線執行。

另請參閱

有關如何使用此操作器的更多資訊,請參閱指南: 啟動 Amazon SageMaker pipeline 執行

引數:
  • config – 啟動 pipeline 執行的配置。

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • pipeline_name (str) – 要啟動的 pipeline 名稱。

  • display_name (str) – 此 pipeline 執行在 UI 中顯示的名稱。不需要是唯一的。

  • pipeline_params (dict | None) – pipeline 的可選引數。提供的所有引數都需要已經存在於 pipeline 定義中。

  • wait_for_completion (bool) – 如果為 true,此操作器僅在 pipeline 完成後才完成。

  • check_interval (int) – 在等待完成時,檢查 pipeline 狀態的間隔時間(秒)。

  • waiter_max_attempts (int) – 在失敗前檢查狀態的最大次數。

  • verbose (bool) – 在等待完成時是否列印步驟詳情。預設為 true,對於包含數千個步驟的 pipeline,請考慮關閉此選項。

  • deferrable (bool) – 在可推遲模式下執行操作器。

返回 str:

返回在 Amazon SageMaker 中建立的 pipeline 執行的 ARN。

template_fields: collections.abc.Sequence[str] = ('aws_conn_id', 'pipeline_name', 'display_name', 'pipeline_params')[source]
pipeline_name[source]
display_name = 'airflow-triggered-execution'[source]
pipeline_params = None[source]
wait_for_completion = False[source]
check_interval = 30[source]
waiter_max_attempts = 9999[source]
verbose = True[source]
deferrable = True[source]
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStopPipelineOperator(*, aws_conn_id=DEFAULT_CONN_ID, pipeline_exec_arn, wait_for_completion=False, check_interval=CHECK_INTERVAL_SECOND, waiter_max_attempts=9999, verbose=True, fail_if_not_running=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基類: SageMakerBaseOperator

停止 SageMaker 流水線執行。

另請參閱

有關如何使用此操作器的更多資訊,請參閱指南: 停止 Amazon SageMaker pipeline 執行

引數:
  • config – 啟動 pipeline 執行的配置。

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

  • pipeline_exec_arn (str) – 要停止的 pipeline 執行的 Amazon 資源名稱 (ARN)。

  • wait_for_completion (bool) – 如果為 true,此操作器僅在 pipeline 完全停止後才完成。

  • check_interval (int) – 在等待完成時,檢查 pipeline 狀態的間隔時間(秒)。

  • verbose (bool) – 在等待完成時是否列印步驟詳情。預設為 true,對於包含數千個步驟的 pipeline,請考慮關閉此選項。

  • fail_if_not_running (bool) – 如果 pipeline 在此操作執行前已停止或成功,則引發異常。

  • deferrable (bool) – 在可推遲模式下執行操作器。

返回 str:

返回操作執行後 pipeline 執行的狀態。

template_fields: collections.abc.Sequence[str] = ('aws_conn_id', 'pipeline_exec_arn')[source]
pipeline_exec_arn[source]
wait_for_completion = False[source]
check_interval = 30[source]
waiter_max_attempts = 9999[source]
verbose = True[source]
fail_if_not_running = False[source]
deferrable = True[source]
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerRegisterModelVersionOperator(*, image_uri, model_url, package_group_name, package_group_desc='', package_desc='', model_approval=ApprovalStatus.PENDING_MANUAL_APPROVAL, extras=None, aws_conn_id=DEFAULT_CONN_ID, config=None, **kwargs)[source]

基類: SageMakerBaseOperator

透過建立一個指定所屬模型組的模型版本來註冊 SageMaker 模型。

如果模型組尚不存在,將建立該模型組。

另請參閱

有關如何使用此操作器的更多資訊,請參閱指南: 註冊 SageMaker 模型版本

引數:
返回 str:

返回建立的模型包的 ARN。

template_fields: collections.abc.Sequence[str] = ('image_uri', 'model_url', 'package_group_name', 'package_group_desc', 'package_desc', 'model_approval')[source]
image_uri[source]
model_url[source]
package_group_name[source]
package_group_desc = ''[source]
package_desc = ''[source]
model_approval[source]
extras = None[source]
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerAutoMLOperator(*, job_name, s3_input, target_attribute, s3_output, role_arn, compressed_input=False, time_limit=None, autodeploy_endpoint_name=None, extras=None, wait_for_completion=True, check_interval=30, aws_conn_id=DEFAULT_CONN_ID, config=None, **kwargs)[source]

基類: SageMakerBaseOperator

建立一個自動機器學習作業,從透過 S3 提供的資料中學習預測給定的列。

學習輸出將被寫入指定的 S3 位置。

另請參閱

有關如何使用此操作器的更多資訊,請參閱指南: 啟動 AutoML 實驗

引數:
  • job_name (str) – 要建立的作業名稱,在賬戶中必須是唯一的。

  • s3_input (str) – 用於獲取資料的 S3 位置(資料夾或檔案)。預設情況下,期望帶有標題的 csv 檔案。

  • target_attribute (str) – 包含要預測的值的列的名稱。

  • s3_output (str) – 寫入模型製品的 S3 資料夾。必須少於或等於 128 個字元。

  • role_arn (str) – 與 S3 互動時使用的 IAM 角色 ARN。必須對輸入資料夾具有讀取許可權,對輸出資料夾具有寫入許可權。

  • compressed_input (bool) – 如果輸入檔案是 gzipped 格式,請設定為 True。

  • time_limit (int | None) – 用於訓練模型的最長時間(秒)。

  • autodeploy_endpoint_name (str | None) – 如果指定,最佳模型將部署到具有該名稱的端點。否則不進行部署。

  • extras (dict | None) – 使用此字典設定任何未透過此函式引數提供的作業建立可變輸入變數。格式描述見:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job

  • wait_for_completion (bool) – 返回前是否等待作業完成。預設為 True。

  • check_interval (int) – 等待完成時,兩次狀態檢查之間的間隔秒數。

返回值:

僅在等待完成時,一個詳細說明最佳模型的字典。其結構與以下連結中“BestCandidate”鍵的結構相同:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.describe_auto_ml_job

template_fields: collections.abc.Sequence[str] = ('job_name', 's3_input', 'target_attribute', 's3_output', 'role_arn', 'compressed_input',...[source]
job_name[source]
s3_input[source]
target_attribute[source]
s3_output[source]
role_arn[source]
compressed_input = False[source]
time_limit = None[source]
autodeploy_endpoint_name = None[source]
extras = None[source]
wait_for_completion = True[source]
check_interval = 30[source]
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerCreateExperimentOperator(*, name, description=None, tags=None, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基類: SageMakerBaseOperator

建立一個 SageMaker 實驗,然後將其關聯到作業等。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:建立實驗供以後使用

引數:
  • name (str) – 實驗名稱,在 AWS 賬戶中必須唯一

  • description (str | None) – 實驗描述,可選

  • tags (dict | None) – 要附加到實驗的標籤,可選

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

返回值:

建立的實驗的 ARN,儘管實驗通常按名稱引用

template_fields: collections.abc.Sequence[str] = ('name', 'description', 'tags')[source]
name[source]
description = None[source]
tags[source]
execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerCreateNotebookOperator(*, instance_name, instance_type, role_arn, volume_size_in_gb=None, volume_kms_key_id=None, lifecycle_config_name=None, direct_internet_access=None, root_access=None, create_instance_kwargs=None, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基類: airflow.models.BaseOperator

建立一個 SageMaker Notebook。

有關此運算子引數的更多資訊,請參閱此處 https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_notebook_instance.html

引數:
  • instance_name (str) – Notebook 例項的名稱。

  • instance_type (str) – 要建立的例項型別。

  • role_arn (str) – SageMaker 可以代入以訪問資源的 IAM 角色的 Amazon Resource Name (ARN)

  • volume_size_in_gb (int | None) – Notebook 例項的 EBS 根裝置卷的大小(GB)。

  • volume_kms_key_id (str | None) – EBS 根裝置卷的 KMS 金鑰 ID。

  • lifecycle_config_name (str | None) – 要關聯到 Notebook 例項的生命週期配置名稱。

  • direct_internet_access (str | None) – 是否為此 Notebook 例項啟用直接網際網路訪問。

  • root_access (str | None) – 是否授予此 Notebook 例項對 Amazon S3 儲存桶的 root 訪問許可權。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 例項處於 InService 狀態

  • create_instance_kwargs (dict[str, Any] | None) – 建立呼叫時使用的額外配置選項。

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

返回值:

所建立 Notebook 例項的 ARN。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance_type', 'role_arn', 'volume_size_in_gb', 'volume_kms_key_id',...[source]
ui_color = '#ff7300'[source]
instance_name[source]
instance_type[source]
role_arn[source]
volume_size_in_gb = None[source]
volume_kms_key_id = None[source]
lifecycle_config_name = None[source]
direct_internet_access = None[source]
root_access = None[source]
wait_for_completion = True[source]
aws_conn_id = 'aws_default'[source]
create_instance_kwargs[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

建立並返回 SageMakerHook。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStopNotebookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基類: airflow.models.BaseOperator

停止一個 Notebook 例項。

引數:
  • instance_name (str) – 要停止的 Notebook 例項的名稱。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 例項停止

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
wait_for_completion = True[source]
aws_conn_id = 'aws_default'[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

建立並返回 SageMakerHook。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerDeleteNotebookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基類: airflow.models.BaseOperator

刪除一個 Notebook 例項。

引數:
  • instance_name (str) – 要刪除的 Notebook 例項的名稱。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 例項刪除。

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
aws_conn_id = 'aws_default'[source]
wait_for_completion = True[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

建立並返回 SageMakerHook。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStartNoteBookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基類: airflow.models.BaseOperator

啟動一個 Notebook 例項。

引數:
  • instance_name (str) – 要啟動的 Notebook 例項的名稱。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 例項處於 InService 狀態

  • aws_conn_id (str | None) – 要使用的 AWS 連線 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
aws_conn_id = 'aws_default'[source]
wait_for_completion = True[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

建立並返回 SageMakerHook。

execute(context)[source]

建立運算子時派生。

上下文是與渲染 jinja 模板時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

此條目有幫助嗎?