主頁 > 軟體設計 > 您如何將TFRecord示例從位元組字串決議為張量字典?

您如何將TFRecord示例從位元組字串決議為張量字典?

2022-11-11 12:49:39 軟體設計

我正在為一個專案訓練一個多任務轉換器,并且想將我的資料結構切換到 TFRecords,因為我的訓練受到動態資料生成的瓶頸。我目前正在將單個資料樣本構建為張量字典,如下所示:

{'continuous_input': tf.Tensor(), 'categorical_input': tf.Tensor(), 'continuous_output': tf.Tensor(), 'categorical_output': tf.Tensor()}

在一個樣本中,這 4 個張量的長度相同,但在樣本之間,這些張量的長度不同。這兩個continuous_張量是 tf.float32,而這兩個categorical_張量是 tf.int32。這些張量的更明確的細節在下面的代碼中。

我認為我已經以正確的格式(位元組字串)成功地將我的資料寫入了 TFRecords。

問題陳述:我無法弄清楚如何將這些 TFRecords 讀回記憶體并將位元組字串決議到上面的張量結構字典中。我在下面包含一個完全可重現的問題示例,它使用 Numpy v1.23.4 和 Tensorflow v2.10.0。它使用上述字典結構創建假資料,將 TFRecords 保存到您的作業目錄,重新加載這些 TFRecords 并嘗試使用我的函式決議它們parse_tfrecord_fn()我知道問題出在parse_tfrecord_fn()但我不知道tf.io解決此問題的適當工具。

可重現的例子:

import os
import os.path as op
import numpy as np
import tensorflow as tf


# Helper functions for writing TFRecords
def _tensor_feature(value):
    serialized_nonscalar = tf.io.serialize_tensor(value)
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[serialized_nonscalar.numpy()]))


def create_example(sample):
    feature = {
        "continuous_input": _tensor_feature(sample['continuous_input']),
        "categorical_input": _tensor_feature(sample['categorical_input']),
        "continuous_output": _tensor_feature(sample['continuous_output']),
        "categorical_output": _tensor_feature(sample['categorical_output']),
    }
    return tf.train.Example(features=tf.train.Features(feature=feature)).SerializeToString()


# Helper functions for reading/preparing TFRecord data

def parse_tfrecord_fn(example):
    feature_description = {
        "continuous_input": tf.io.VarLenFeature(tf.string),
        "categorical_input": tf.io.VarLenFeature(tf.string),
        "continuous_output": tf.io.VarLenFeature(tf.string),
        "categorical_output": tf.io.VarLenFeature(tf.string)
    }
    example = tf.io.parse_single_example(example, feature_description)
    # TODO: WHAT GOES HERE?
    return example


def get_dataset(filenames, batch_size):
    dataset = (
        tf.data.TFRecordDataset(filenames, num_parallel_reads=tf.data.AUTOTUNE)
            .map(parse_tfrecord_fn, num_parallel_calls=tf.data.AUTOTUNE)
            .shuffle(batch_size * 10)
            .batch(batch_size)
            .prefetch(tf.data.AUTOTUNE)
    )
    return dataset

# Make fake data
num_samples_per_tfrecord = 100
num_train_samples = 1600
num_tfrecords = num_train_samples // num_samples_per_tfrecord
fake_sequence_lengths = np.random.randint(3, 35, num_train_samples)
fake_data = []
for i in range(num_train_samples):
    seq_len = fake_sequence_lengths[i]
    fake_data.append({'continuous_input': tf.random.uniform([seq_len], minval=0, maxval=1, dtype=tf.float32),
                      'categorical_input': tf.random.uniform([seq_len], minval=0, maxval=530, dtype=tf.int32),
                      'continuous_output': tf.fill(seq_len, -1.0),
                      'categorical_output': tf.fill(seq_len, -1)})

tfrecords_dir = './tfrecords'
if not op.exists(tfrecords_dir):
    os.makedirs(tfrecords_dir)  # create TFRecords output folder

# Write fake data to tfrecord files
for tfrec_num in range(num_tfrecords):
    samples = fake_data[(tfrec_num * num_samples_per_tfrecord): ((tfrec_num   1) * num_samples_per_tfrecord)]
    with tf.io.TFRecordWriter(tfrecords_dir   "/file_%.2i.tfrec" % tfrec_num) as writer:
        for sample in samples:
            example = create_example(sample)
            writer.write(example)

# (Try to) Load all the TFRecord data into a (parsed) tf dataset
train_filenames = tf.io.gfile.glob(f"{tfrecords_dir}/*.tfrec")

# Problem: the line below doesn't return the original tensors of fake_data, because my parse_tfrecord_fn is wrong
# Question: What must I add to parse_tfrecord_fn to give this the desired behavior?
dataset = get_dataset(train_filenames, batch_size=32)

# For ease of debugging parse_tfrecord_fn():
dataset = tf.data.TFRecordDataset(train_filenames, num_parallel_reads=tf.data.AUTOTUNE)
element = dataset.take(1).get_single_element()
parse_tfrecord_fn(element)  # set your breakpoint here, then can step through parse_tfrecord_fn()

該函式parse_tfrecord_fn()接受一個位元組串作為輸入,如下所示:

示例 = "b'\n\xb4\x03\nj\n\x10continuous_input\x12V\nT\nR\x08\x01\x12\x04\x12\x02\x08\x12"H..."

命令example = tf.io.parse_single_example(example, feature_description),其中引數在我的可重現示例中定義,回傳SparseTensors具有所需 4 個鍵('continuous_input'、'categorical_input'等)的字典。但是,這些 SparseTensor 的要么不存在,要么我無法訪問,因此我無法提取和決議它們,例如 with tf.io.parse_tensor(example['continuous_input'].values.numpy().tolist()[0], out_type=tf.float32)

uj5u.com熱心網友回復:

我解決了這個問題,我最初的懷疑是正確的——這是決議器函式中需要的一個簡單更改,parse_tfrecord_fn. 我在下面包含了完整的作業代碼,對于任何可能有助于前進的人。我對用于撰寫 TFRecords 的輔助函式進行了微小的修改,以匹配常見的設計模式。實質性變化發生在parse_tfrecord_fn.

主要見解

  1. tf.io.FixedLenFeature([], tf.string)決議任何最初序列化為bytes_list. 這里的直覺是,盡管bytes_list字串的長度可能因物件而異,但它仍然只是 1 string,并且“1”是使其成為固定長度特征的原因。

  2. 使用 撤消bytes_list張量的序列化,使用引數tf.io.parse_tensor()指定張量的原始 dtype out_type

  • 請注意,如果您用于tf.io.VarLenFeature決議 TFRecord,這將不起作用,因為這將回傳某種SparseTensor我無法反序列化/決議的內容。

結合這兩個見解,正確的流程如下:

  • 將 TFRecord 決議回其字典形式,將原始鍵和序列化(即未決議)張量作為值。
  • 然后決議該字典中的各個張量。
import os
import os.path as op
import numpy as np
import tensorflow as tf


# Helper functions for writing TFRecords
def _bytes_feature(value):
    """Returns a bytes_list from a string / byte."""
    # If the value is an eager tensor BytesList won't unpack a string from an EagerTensor.
    if isinstance(value, type(tf.constant(0))):
        value = value.numpy()
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))


def create_example(sample):
    feature = {
        "continuous_input": _bytes_feature(tf.io.serialize_tensor(sample['continuous_input'])),
        "categorical_input": _bytes_feature(tf.io.serialize_tensor(sample['categorical_input'])),
        "continuous_output": _bytes_feature(tf.io.serialize_tensor(sample['continuous_output'])),
        "categorical_output": _bytes_feature(tf.io.serialize_tensor(sample['categorical_output'])),
    }

    return tf.train.Example(features=tf.train.Features(feature=feature)).SerializeToString()


# Helper functions for reading/preparing TFRecord data
def parse_tfrecord_fn(example_to_parse):
    feature_description = {
        "continuous_input": tf.io.FixedLenFeature([], tf.string),
        "categorical_input": tf.io.FixedLenFeature([], tf.string),
        "continuous_output": tf.io.FixedLenFeature([], tf.string),
        "categorical_output": tf.io.FixedLenFeature([], tf.string)
    }
    parsed_example = tf.io.parse_single_example(example_to_parse, feature_description)
    return {'continuous_input': tf.io.parse_tensor(parsed_example['continuous_input'], out_type=tf.float32),
            'categorical_input': tf.io.parse_tensor(parsed_example['categorical_input'], out_type=tf.int32),
            'continuous_output': tf.io.parse_tensor(parsed_example['continuous_output'], out_type=tf.float32),
            'categorical_output': tf.io.parse_tensor(parsed_example['categorical_output'], out_type=tf.int32)}


def get_dataset(filenames, batch_size):
    dataset = (
        tf.data.TFRecordDataset(filenames, num_parallel_reads=tf.data.AUTOTUNE)
            .map(parse_tfrecord_fn, num_parallel_calls=tf.data.AUTOTUNE)
            .shuffle(batch_size * 10)
            .padded_batch(batch_size=batch_size,
                          padding_values={'categorical_input': 0, 'continuous_input': 0.0,
                                          'categorical_output': -1,
                                          'continuous_output': -1.0},
                          padded_shapes={'categorical_input': [None], 'continuous_input': [None],
                                         'categorical_output': [None],
                                         'continuous_output': [None]},
                          drop_remainder=True)
            .prefetch(tf.data.AUTOTUNE)
    )
    return dataset


# Make fake data
num_samples_per_tfrecord = 100
num_train_samples = 1600
num_tfrecords = num_train_samples // num_samples_per_tfrecord
fake_sequence_lengths = np.random.randint(3, 35, num_train_samples)
fake_data = []
for i in range(num_train_samples):
    seq_len = fake_sequence_lengths[i]
    fake_data.append({"continuous_input": tf.random.uniform([seq_len], minval=0, maxval=1, dtype=tf.float32),
                      "categorical_input": tf.random.uniform([seq_len], minval=0, maxval=530, dtype=tf.int32),
                      "continuous_output": tf.fill(seq_len, -1.0),
                      "categorical_output": tf.fill(seq_len, -1)})

tfrecords_dir = './tfrecords'
if not op.exists(tfrecords_dir):
    os.makedirs(tfrecords_dir)  # create TFRecords output folder

# Write fake data to tfrecord files
for tfrec_num in range(num_tfrecords):
    samples = fake_data[(tfrec_num * num_samples_per_tfrecord): ((tfrec_num   1) * num_samples_per_tfrecord)]
    with tf.io.TFRecordWriter(tfrecords_dir   "/file_%.2i.tfrec" % tfrec_num) as writer:
        for sample in samples:
            example = create_example(sample)
            writer.write(example)

# Load all the TFRecord data into a (parsed) tf dataset
train_filenames = tf.io.gfile.glob(f"{tfrecords_dir}/*.tfrec")

# The line below works now!
dataset = get_dataset(train_filenames, batch_size=32)

for el in dataset:
    successful_element = el
    break

print(successful_element)

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/531700.html

標籤:张量流记录

上一篇:僅輸出最后一個TensorFlow概率層(多次)

下一篇:創建新檔案時設定python腳本默認值

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more