有沒有一種方法可以使用 pandas Dataframe 更新現有 Azure ML 資料集并更新版本?默認資料集作為 csv 檔案存盤在 blob 中。我們該如何處理?
還假設我們要將最新版本更改為另一個版本。

上面我們看到版本 2 是最新的,但我想將最新版本更改為版本 1,這樣如果有人讀取資料集,它將來自版本 1。不想專門使用版本來檢索它。
uj5u.com熱心網友回復:
關于您的第一個問題,這里有兩種方法可以使用存盤在 Blob 存盤中的 CSV 檔案將您的 Azure ML 資料集更新為新版本:
方法一:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
blob_url = 'https://sampleazurestorage.blob.core.windows.net/data/my-sample-data.csv'
my_dataset = Data(
path=blob_url ,
type=AssetTypes.MLTABLE,
description="a description for your dataset",
name="dataset_name",
version='<new_version>'
)
ml_client.data.create_or_update(my_dataset)
方法二:
import azureml.core
from azureml.core import Dataset, Workspace
ws = Workspace.from_config()
datastore = ws.get_default_datastore()
blob_url = 'https://sampleazurestorage.blob.core.windows.net/data/my-sample-data.csv'
my_dataset = Dataset.File.from_delimited_files(path=blob_url)
my_dataset.register(
workspace=ws,
name="dataset_name",
description="a description for your dataset",
create_new_version=True
)
如果要使用 pandas DataFrame 更新資料集:
my_df = ... # the variable that contains the new dataset in a DataFrame
my_dataset = Dataset.File.from_pandas_dataframe(dataframe=my_df)
my_dataset.register(
...
)
關于你的第二個問題:
上面我們看到版本2是最新的,但是我想把最新的改成版本1
這是不可能的,因為“最新”始終指向具有給定名稱的資料集的最后(最新)上傳版本。因此,如果您想要特定或最新版本,則應更改“方法 1”代碼段version中類中的引數。Data
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/516659.html
