主頁 > 後端開發 > 實踐:二進制資料處理與封裝

實踐:二進制資料處理與封裝

2022-08-05 07:24:21 後端開發

實踐:二進制資料處理與封裝

作者:哲思

時間:2022.8.4

郵箱:[email protected]

GitHub:zhe-si (哲思) (github.com)

前言

最近在研究所做網路終端測驗的專案,包括一些嵌入式和底層資料幀的封裝呼叫,之前很少接觸對二進制原始資料的處理與封裝,所以在此進行整理,

以下例子主要以 c++ 語言進行說明,

什么是二進制資料

在電腦上一切資料都是通過二進制(0或1)進行存盤的,通過多位二進制資料可以進而表示整形、浮點型、字符、字串等各種基礎型別資料或者一些更復雜的資料格式,

針對日常中一般的需求進行編程,我們通常無需關注底層的二進制資料,但如果要處理二進制檔案(音頻、視頻、圖片等)、設計空間上更高效的資料結構(網路資料幀、位元組碼、protobuf)或者處理某些底層時,需要我們處理這些二進制資料,

計算機中,稱每一個二進制位為位元(bit,也稱:位),是計算機中的最小存盤單位,

每 8 位元組成一個位元組(byte),一般是計算機實際存盤和處理的最小單位(可以是它的倍數),也就是說,計算機是以位元組為最小單位分配空間或進行計算的,不能分配比位元組更小的存盤空間(如,最小的資料型別是char,長度 1 位元組,不支持申請 6 位元存盤空間)或者直接處理小于位元組單位的資料(如,兩個 4 位元的資料相加減),

若干位元組構成一個計算機字(簡稱:字,word),表示計算機一次性處理事務的固定長度二進制資料,字的位數為字長,計算機是以字為單位處理或運算的,兩個常見的概念是CPU位數作業系統位數

CPU 的位數就是指 CPU 執行一次指令能處理的最大位數(一個字長),和 CPU 中的暫存器的位數對應,其中,地址暫存器 MAR 限制了計算機的尋址范圍,資料暫存器 MDR 限制了一次處理的資料長度,更多的位數帶來了更大的尋址空間和更強的運算能力,

說明:尋址范圍不等于記憶體大小,尋址物件有記憶體條、顯卡記憶體、聲卡、網卡和其他設備,之所以常把尋址范圍當作記憶體上限,是因為記憶體是CPU的主要尋址物件,

這里解釋一下常見的指令架構:x86 是 intel 推出的一種指令集架構(復雜指令集 CISC 架構),一開始只有32位的,叫 x86_32;后來 AMD 公司推出了兼容 x86_32 的 64 位指令集 amd64,被業界接受,intel 將其改名為 x86_64,簡稱 x64,而 x86_32 和 x86_64 可統稱為 x86,與 x86 相對的是基于精簡指令集RISC架構的 ARM 指令集架構,多用于移動設備,

作業系統基于 CPU 指令集實作,所以作業系統位數也直接對應 CPU 位數,由于 CPU 指令集的向下兼容性,所以 32 位作業系統也可以運行在 64 位的 CPU 上,但反過來不行,作業系統對軟體提供了向下兼容的能力,64 位的作業系統支持 64 和 32 位的程式,但 32 位的作業系統只支持 32 位的程式,

處理二進制資料

在大多語言中,最小的資料型別是 char,一個位元組,二進制資料多用 unsigned char 表示,并寫作 uint8,語言底層常把它當作 int 進行運算,

二進制常數以“0b”開頭,如:0b001,二進制資料也常用8進制(以“0”開頭)和 16 進制(以“0x”開頭)表示,如:0257(175,八進制)、0x1f(31,16進制),8 進制 1 個數字表示 3 位二進制資料,16 進制 1 個數字表示 4 位二進制資料,一個位元組可以用 2 個 16 進制數表示,

若要處理小于一位元組的資料,就要使用位運算子(&、|、^、~、>>、<<),

位運算子 描述 運算規則 用途
& 兩個位都為1時,結果才為1 二進制位清零或得到指定位資料
| 兩個位都為0時,結果才為0 二進制位設定為1;與對應位為0的資料相加
^ 異或 兩個位相同為0,相異為1 反轉指定位
~ 取反 0變1,1變0 二進制位全部取反
<< 左移 各二進位全部左移若干位,高位丟棄,低位補0 \(x*2^n\);將資料移到高位
>> 右移 各二進位全部右移若干位,對無符號數,高位補0,有符號數,各編譯器處理方法不一樣,有的補符號位(算術右移),有的補0(邏輯右移) \(x/2^n\);將資料移到低位

舉個例子,判斷某個位元組的第3位是否是1:

// 先清0其他位,再判斷是否等于0b100
bool isOne = (byte & 0b100) == 0b100;

再舉個例子,計算機網路 IP 協議中的 control flag 和 fragment offset 合起來存盤在 IP 頭部的第 7、8 位元組,flag 占前三位,后 13 位為 fragment offset,可以通過以下運算獲得 flag 和 offset:

// 獲得flag要截取byte7前3位資料:先清空后5位,保留前3位資料,再右移5位將前3位資料移到起始
uint8_t flag = (byte7 & 0b11100000) >> 5;
// 此處以大端存盤,獲得offset要截取byte7的低5位作為高位,byte8作為低位,求和:先清空byte7前3位,保留后5位資料,把它移到高8位上,再通過全0的低8位與byte8按位求或來求二者之和
((byte7 & 0b00011111) << 8) | byte8;

補充說明,當需要多個位元組表示一個資料型別時,需要定義資料的高位位元組是存盤在高位地址空間還是低位地址空間,這就是大小端的定義,大端指高位位元組存在低位地址,這是人的手寫習慣;小端指低位位元組存高位地址,在處理用多個位元組表示的資料時,首先要搞清楚資料是大端還是小端,

所以,我們可以基于上述知識寫一個無符號整形與位元組流相互轉換的通用方法:

// true為大端,低位地址存高位位元組
bool ENDIAN = true;

/**
 * 將data轉換為無符號整形數字(無符號char,short,int,long,long long等)
 * @tparam T 目標型別,默認為 uint32_t
 * @param data 載荷資料 byte陣列
 * @param valueSize 資料長度,單位:byte,-1表示根據T型別自動計算
 * @param default_value 默認值,默認為0
 * @return 根據data轉換的無符號整形資料
 */
template<typename T = uint32_t>
T payloadToUnsignedInt(std::vector<uint8_t> data, int valueSize = -1, T default_value = https://www.cnblogs.com/zhe-si/archive/2022/08/04/uint32_t(0)) {
    if (valueSize == -1) valueSize = sizeof(T);
    if (valueSize > data.size()) return default_value;
    T value = 0;
    for (int i = 0; i < valueSize; i++) {
        if (ENDIAN) {
            value |= (data[i] & 0xff) << ((valueSize - 1 - i) << 3);
        } else {
            value |= (data[i] & 0xff) << (i << 3);
        }
    }
    return value;
}

/**
 * 無符號整形轉換為載荷 byte陣列
 * @param value 無符號整形資料
 * @param valueSize 資料長度,單位:byte,-1表示根據T型別自動計算
 * @return 載荷 byte陣列
 */
template
std::vector uintToPayload(T value, int valueSize = -1) {
    if (valueSize == -1) valueSize = sizeof(T);
    std::vector data(valueSize, 0);
    for (int i = 0; i < valueSize; i++) {
        if (ENDIAN) {
            data[i] = (value >> ((valueSize - 1 - i) << 3)) & 0xff;
        } else {
            data[i] = (value >> (i << 3)) & 0xff;
        }
    }
    return data;
}

封裝二進制資料

掌握了二進制資料的處理方法,接下來就是對二進制資料的封裝,將其封裝為人可以理解的物件,

二進制資料通常以 uint8_t 陣串列示,不同位有不同的含義,需要根據實際含義進行決議后得到有意義的目標資訊,所以重點就是描述每一位的含義,并基于該描述決議二進制資料,提供二進制資料與有含義的物件的相互轉換,

思路1:基于組態檔

此處以自定義的二進制指令封裝為例進行說明(專案地址),但該配置專案適用于任意二進制資料封裝場景,面對這個需求,首先想到的是通過組態檔描述二進制流每一位的含義,加載組態檔后根據一些過濾條件配置確定當前二進制流段實際對應的配置并決議為字典,

由于專案包括一些嵌入式的內容,需要把所有檔案編譯后燒入板子,不支持存盤普通檔案格式的組態檔,所以采用變數形式的配置,全域宣告配置的型別資訊和配置物件(cmd_manager),專案內任意位置定義該配置物件即可,在其他場景也可選擇 Json、xml 等配置格式,

本文設計的配置物件定義方式如下:

/**
 * 載荷配置項
 */
const CmdManager cmd_manager = { 2, {  // 指令個數,下面是每一個指令的配置
        {"TCRQ", 3, {  // 配置項名,配置項對應的欄位數
            {"TE_SEQ_NO", -1, &FT_SHORT, 0},  // 具體配置項內欄位配置(欄位名,欄位偏移,欄位型別,配置項該欄位過濾條件
            {"CMD", -1, &FT_CHARS_4, "TCRQ"},  // 配置項要求該欄位等于"TCRQ",資料不滿足則不匹配該配置項
            {"REPEAT_COUNT", -1, &FT_SHORT, 0}}}
}};

專案會自動加載該配置物件,之后針對原始二進制資料通過 PayloadObjectMapFactory 工廠匹配對應配置并生成資料物件,可從資料物件獲得該物件型別(配置項名)并讀寫其中的欄位值,或者指定配置項創建空的資料物件,進行資料設定后獲得其原始二進制資料載荷,

評價:

該思路通過組態檔可以自由且動態的調整決議方式,易于復用、拓展或調整,其難點在于配置格式的設計,同時字典型別資料無法如直接宣告型別結構那樣清晰易用,

思路2:基于資料底層存盤方式

此處以計算機網路資料幀封裝為例進行說明,c++ 底層對物件/結構體的成員欄位采用型別對齊連續存盤方式,使用該特性可以基于實際含義自然宣告、使用欄位,同時可以直接作為二進制資料流處理,實作示例如下:

/**
 * 資料抽象類,提供二進制流到物件的相互轉化能力
 * 內部類,只復用代碼,不用于多型
 * @tparam size 資料位元組長度
 */
template<int size>
class DataType {
public:
    DataType() { resetData(); }
    // 初始化所有資料
    void resetData() const { memset((void *) (this), 0, size); }
    // 從二進制流加載資料
    bool loadData(const std::vector<uint8_t>& data, int startIndex=0) {
        auto * p = (uint8_t *) this;  // 將自身當作二進制陣列處理
        for (int i = 0; i < size; i++) {
            *p = data[i + startIndex];
            p++;
        }
        return true;
    }
    // 基于自身生成新的二進制資料流
    [[nodiscard]] std::vector<uint8_t> createData() const {
        std::vector<uint8_t> result;
        auto p = (uint8_t const *) this;
        for (int i = 0; i < size; i++) {
            result.push_back(*p);
            p++;
        }
        return result;
    }
    [[nodiscard]] int getSize() const { return size; }
};

// 以順序宣告方式定義具體的二進制資料型別,支持嵌套宣告
class MACHeader : public DataType<14> {
public:
    // 通過上述無符號整形與位元組流相互轉化的方法將netType的讀寫進行封裝
    [[nodiscard]] uint16_t getNetType() const {
        return payloadToUnsignedInt(std::vector<uint8_t>(netType.begin(), netType.end()), 2, uint16_t(0));
    }
    void setNetType(uint16_t _netType) {
        auto data = https://www.cnblogs.com/zhe-si/archive/2022/08/04/uintToPayload(_netType, 2);
        std::copy(data.begin(), data.end(), netType.begin());
    }

    // 提供與json互轉的能力,為了提供映射為python物件的能力
    bool loadJson(const Json::Value& json);
    [[nodiscard]] Json::Value createJson() const;

    std::array desMac;  // 占多個位元組的資料采用std::array陣列描述,可避免型別丟失,同時保證資料型別仍然一致對其
    std::array srcMac;
    std::array netType;
};

本專案還需要提供 c++ 的資料幀物件映射到 python 物件的能力,為了簡化 CPython 的拓展方法介面,c++ 層提供從 json 加載或生成 json 的能力,在 python 層實作一個 json 快取,通過快取提交和更新實作資料管理,為了致敬git,專案實際提交和更新方法命名為 push 和 pull,(╯▔^▔)╯,

評價:

該思路通過一種類似順序宣告的方式(有點像配置)定義資料流每個位置的實際含義,使用時清晰直接,并巧妙的通過其底層原理便捷的在物件和二進制資料流之間提供轉化操作,但由于其需要實際宣告型別,不如思路1動態靈活易復用,

本文來自博客園,作者:_哲思,轉載請注明原文鏈接:https://www.cnblogs.com/zhe-si/p/16550833.html

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/500962.html

標籤:其他

上一篇:通過過濾器實作前后端分離的跨域問題

下一篇:SpringBoot 如何集成 MyBatisPlus - SpringBoot 2.7.2實戰基礎

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more