Tensorflow模型使用IODataset讀取Parquet檔案-有解無憂

我一直在嘗試使用tfio.IODataset.from_parquet來訓練模型大型鑲木地板檔案。以下是我正在使用的鑲木地板加載程式的最小示例：

pd.DataFrame({'a':[.1,.2], 'b':[.01,.02]}).to_parquet('file.parquet')
ds = tfio.IODataset.from_parquet('file.parquet', columns = ['a','b'])

for batch in ds.batch(5):
    print(batch)

OrderedDict([('a', <tf.Tensor: shape=(2,), dtype=float64, numpy=array([0.1, 0.2])>), ('b', <tf.Tensor: shape=( 2,), dtype=float64, numpy=array([0.01, 0.02])>)])

批處理資料集是OrderedDict帶有鍵a和的型別b。為了訓練我的模型，我想要更類似于“密集”特征向量的東西，而不是有序字典中的兩個單獨的鍵。 如何將 OrderedDict 轉換為密集元組？

嘗試 1

根據這個例子，我嘗試了以下方法將資料集轉換為“密集”特征：

def make_dense(features):
    features = tf.stack(list(features), axis=1)
    return features
ds = ds.map(make_dense)

不幸的是，這會引發錯誤。我嘗試了這個主題的幾種變體，包括

更改axis=1為axis=0
使用ds = ds.map(lambda *items: tf.stack(items))代替我的make_dense功能。

我想這是一個非常基本的操作IODataset；我只是不知道如何實作它。

uj5u.com熱心網友回復：

不是最漂亮的解決方案，但你可以嘗試這樣的事情：

import pandas as pd
import tensorflow_io as tfio

pd.DataFrame({'a':[.1,.2], 'b':[.01,.02]}).to_parquet('file.parquet')
ds = tfio.IODataset.from_parquet('file.parquet', columns = ['a','b'])

def option1(features):
    keys, values = tf.TensorArray(dtype=tf.string, size=0, dynamic_size=True), tf.TensorArray(dtype=tf.float64, size=0, dynamic_size=True)
    for k, v in features.items():
       keys = keys.write(keys.size(), k)
       values = values.write(values.size(), v)
    return (keys.stack(), values.stack())

def option2(features):
    ta = tf.TensorArray(dtype=tf.float64, size=0, dynamic_size=True)
    for _, v in features.items():
       ta = ta.write(ta.size(), v)
    return ta.stack()  

option1_ds = ds.map(option1)
for batch in option1_ds.batch(5):
    print(batch)

print()

option2_ds = ds.map(option2)
for batch in option2_ds.batch(5):
    print(batch)

(<tf.Tensor: shape=(2, 2), dtype=string, numpy=
array([[b'a', b'b'],
       [b'a', b'b']], dtype=object)>, <tf.Tensor: shape=(2, 2), dtype=float64, numpy=
array([[0.1 , 0.01],
       [0.2 , 0.02]])>)

tf.Tensor(
[[0.1  0.01]
 [0.2  0.02]], shape=(2, 2), dtype=float64)

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/362374.html

標籤：Python 张量流张量流数据集

上一篇：tensorflow_hub在保存keras模型時回傳NotImplementedError

下一篇：ValueError：呼叫層“max_pooling2d_26”（型別MaxPooling2D）時遇到例外