我正在使用自己的資料集構建聯邦學習模型。我的目標是建立一個多分類模型。資料顯示在單獨的 8 個 CSV 檔案中。
我按照這篇文章中的說明進行操作,如下面的代碼所示。
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
def create_tf_dataset_for_client_fn(id):
path = dataset_paths.get(id)
if path is None:
raise ValueError(f'No dataset for client {id}')
return tf.data.Dataset.TextLineDataset(path)
source = tff.simulation.datasets.ClientData.from_clients_and_fn(
dataset_paths.keys(), create_tf_dataset_for_client_fn)
但它給了我這個錯誤
AttributeError: type object 'ClientData' has no attribute 'from_clients_and_fn'
我正在閱讀這個檔案,發現.datasets方法可以作業,所以我替換為.from_clients_and_fn并且錯誤消失了,但我不知道它是否正確以及下一步是什么?
我的問題是:
- 這是將資料上傳到客戶端的正確方法嗎?
- 如果無法單獨上傳 CSV 檔案,我可以將所有資料合并到一個 CSV 檔案中,然后將它們視為非 IID 資料并進行相應的訓練嗎?我需要一些指導
并提前感謝
uj5u.com熱心網友回復:
tff.simulation.datasets.FilePerUserClientData在此設定中,考慮和可能有用tf.data.experimental.CsvDataset。
這可能看起來像(為了示例,這會生成一些測驗 CSV 資料,您使用的資料集可能具有其他形狀):
dataset_paths = {
'client_0': '/content/ds1.csv',
'client_1': '/content/ds2.csv',
'client_2': '/content/ds3.csv',
'client_3': '/content/ds4.csv',
'client_4': '/content/ds5.csv',
}
# Create some test data for the sake of the example,
# normally we wouldn't do this.
for i, (id, path) in enumerate(dataset_paths.items()):
with open(path, 'w') as f:
for _ in range(i):
f.write(f'test,0.0,{i}\n')
# Values that will fill in any CSV cell if its missing,
# must match the dtypes above.
record_defaults = ['', 0.0, 0]
@tf.function
def create_tf_dataset_for_client_fn(dataset_path):
return tf.data.experimental.CsvDataset(
dataset_path, record_defaults=record_defaults )
source = tff.simulation.datasets.FilePerUserClientData(
dataset_paths, create_tf_dataset_for_client_fn)
print(source.client_ids)
>>> ['client_0', 'client_1', 'client_2', 'client_3', 'client_4']
for x in source.create_tf_dataset_for_client('client_3'):
print(x)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
>>> (<tf.Tensor: shape=(), dtype=string, numpy=b'test'>, <tf.Tensor: shape=(), dtype=float32, numpy=0.0>, <tf.Tensor: shape=(), dtype=int32, numpy=3>)
可以將所有資料連接到單個 CSV 中,但每條記錄仍需要一些識別符號來指示哪一行屬于哪個客戶端。在沒有任何型別的每個客戶端映射的情況下將所有行混合在一起類似于標準的集中訓練,而不是聯合學習。
一旦 CSV 包含所有行,并且可能包含具有client_id值的列,則可能會使用它tf.data.Dataset.filter()來僅生成屬于特定客戶端的行。不過,這可能不會特別有效,因為它將遍歷每個客戶端的整個全域資料集,而不僅僅是該客戶端的示例。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/434156.html
