實踐:二進制資料處理與封裝
作者:哲思
時間:2022.8.4
GitHub:zhe-si (哲思) (github.com)
前言
最近在研究所做網路終端測驗的專案,包括一些嵌入式和底層資料幀的封裝呼叫,之前很少接觸對二進制原始資料的處理與封裝,所以在此進行整理,
以下例子主要以 c++ 語言進行說明,
什么是二進制資料
在電腦上一切資料都是通過二進制(0或1)進行存盤的,通過多位二進制資料可以進而表示整形、浮點型、字符、字串等各種基礎型別資料或者一些更復雜的資料格式,
針對日常中一般的需求進行編程,我們通常無需關注底層的二進制資料,但如果要處理二進制檔案(音頻、視頻、圖片等)、設計空間上更高效的資料結構(網路資料幀、位元組碼、protobuf)或者處理某些底層時,需要我們處理這些二進制資料,
計算機中,稱每一個二進制位為位元(bit,也稱:位),是計算機中的最小存盤單位,
每 8 位元組成一個位元組(byte),一般是計算機實際存盤和處理的最小單位(可以是它的倍數),也就是說,計算機是以位元組為最小單位分配空間或進行計算的,不能分配比位元組更小的存盤空間(如,最小的資料型別是char,長度 1 位元組,不支持申請 6 位元存盤空間)或者直接處理小于位元組單位的資料(如,兩個 4 位元的資料相加減),
若干位元組構成一個計算機字(簡稱:字,word),表示計算機一次性處理事務的固定長度二進制資料,字的位數為字長,計算機是以字為單位處理或運算的,兩個常見的概念是CPU位數和作業系統位數,
CPU 的位數就是指 CPU 執行一次指令能處理的最大位數(一個字長),和 CPU 中的暫存器的位數對應,其中,地址暫存器 MAR 限制了計算機的尋址范圍,資料暫存器 MDR 限制了一次處理的資料長度,更多的位數帶來了更大的尋址空間和更強的運算能力,
說明:尋址范圍不等于記憶體大小,尋址物件有記憶體條、顯卡記憶體、聲卡、網卡和其他設備,之所以常把尋址范圍當作記憶體上限,是因為記憶體是CPU的主要尋址物件,
這里解釋一下常見的指令架構:x86 是 intel 推出的一種指令集架構(復雜指令集 CISC 架構),一開始只有32位的,叫 x86_32;后來 AMD 公司推出了兼容 x86_32 的 64 位指令集 amd64,被業界接受,intel 將其改名為 x86_64,簡稱 x64,而 x86_32 和 x86_64 可統稱為 x86,與 x86 相對的是基于精簡指令集RISC架構的 ARM 指令集架構,多用于移動設備,
作業系統基于 CPU 指令集實作,所以作業系統位數也直接對應 CPU 位數,由于 CPU 指令集的向下兼容性,所以 32 位作業系統也可以運行在 64 位的 CPU 上,但反過來不行,作業系統對軟體提供了向下兼容的能力,64 位的作業系統支持 64 和 32 位的程式,但 32 位的作業系統只支持 32 位的程式,
處理二進制資料
在大多語言中,最小的資料型別是 char,一個位元組,二進制資料多用 unsigned char 表示,并寫作 uint8,語言底層常把它當作 int 進行運算,
二進制常數以“0b”開頭,如:0b001,二進制資料也常用8進制(以“0”開頭)和 16 進制(以“0x”開頭)表示,如:0257(175,八進制)、0x1f(31,16進制),8 進制 1 個數字表示 3 位二進制資料,16 進制 1 個數字表示 4 位二進制資料,一個位元組可以用 2 個 16 進制數表示,
若要處理小于一位元組的資料,就要使用位運算子(&、|、^、~、>>、<<),
| 位運算子 | 描述 | 運算規則 | 用途 |
|---|---|---|---|
| & | 與 | 兩個位都為1時,結果才為1 | 二進制位清零或得到指定位資料 |
| | | 或 | 兩個位都為0時,結果才為0 | 二進制位設定為1;與對應位為0的資料相加 |
| ^ | 異或 | 兩個位相同為0,相異為1 | 反轉指定位 |
| ~ | 取反 | 0變1,1變0 | 二進制位全部取反 |
| << | 左移 | 各二進位全部左移若干位,高位丟棄,低位補0 | 求\(x*2^n\);將資料移到高位 |
| >> | 右移 | 各二進位全部右移若干位,對無符號數,高位補0,有符號數,各編譯器處理方法不一樣,有的補符號位(算術右移),有的補0(邏輯右移) | 求\(x/2^n\);將資料移到低位 |
舉個例子,判斷某個位元組的第3位是否是1:
// 先清0其他位,再判斷是否等于0b100
bool isOne = (byte & 0b100) == 0b100;
再舉個例子,計算機網路 IP 協議中的 control flag 和 fragment offset 合起來存盤在 IP 頭部的第 7、8 位元組,flag 占前三位,后 13 位為 fragment offset,可以通過以下運算獲得 flag 和 offset:
// 獲得flag要截取byte7前3位資料:先清空后5位,保留前3位資料,再右移5位將前3位資料移到起始
uint8_t flag = (byte7 & 0b11100000) >> 5;
// 此處以大端存盤,獲得offset要截取byte7的低5位作為高位,byte8作為低位,求和:先清空byte7前3位,保留后5位資料,把它移到高8位上,再通過全0的低8位與byte8按位求或來求二者之和
((byte7 & 0b00011111) << 8) | byte8;
補充說明,當需要多個位元組表示一個資料型別時,需要定義資料的高位位元組是存盤在高位地址空間還是低位地址空間,這就是大小端的定義,大端指高位位元組存在低位地址,這是人的手寫習慣;小端指低位位元組存高位地址,在處理用多個位元組表示的資料時,首先要搞清楚資料是大端還是小端,
所以,我們可以基于上述知識寫一個無符號整形與位元組流相互轉換的通用方法:
// true為大端,低位地址存高位位元組
bool ENDIAN = true;
/**
* 將data轉換為無符號整形數字(無符號char,short,int,long,long long等)
* @tparam T 目標型別,默認為 uint32_t
* @param data 載荷資料 byte陣列
* @param valueSize 資料長度,單位:byte,-1表示根據T型別自動計算
* @param default_value 默認值,默認為0
* @return 根據data轉換的無符號整形資料
*/
template<typename T = uint32_t>
T payloadToUnsignedInt(std::vector<uint8_t> data, int valueSize = -1, T default_value = https://www.cnblogs.com/zhe-si/archive/2022/08/04/uint32_t(0)) {
if (valueSize == -1) valueSize = sizeof(T);
if (valueSize > data.size()) return default_value;
T value = 0;
for (int i = 0; i < valueSize; i++) {
if (ENDIAN) {
value |= (data[i] & 0xff) << ((valueSize - 1 - i) << 3);
} else {
value |= (data[i] & 0xff) << (i << 3);
}
}
return value;
}
/**
* 無符號整形轉換為載荷 byte陣列
* @param value 無符號整形資料
* @param valueSize 資料長度,單位:byte,-1表示根據T型別自動計算
* @return 載荷 byte陣列
*/
template
std::vector uintToPayload(T value, int valueSize = -1) {
if (valueSize == -1) valueSize = sizeof(T);
std::vector data(valueSize, 0);
for (int i = 0; i < valueSize; i++) {
if (ENDIAN) {
data[i] = (value >> ((valueSize - 1 - i) << 3)) & 0xff;
} else {
data[i] = (value >> (i << 3)) & 0xff;
}
}
return data;
}
封裝二進制資料
掌握了二進制資料的處理方法,接下來就是對二進制資料的封裝,將其封裝為人可以理解的物件,
二進制資料通常以 uint8_t 陣串列示,不同位有不同的含義,需要根據實際含義進行決議后得到有意義的目標資訊,所以重點就是描述每一位的含義,并基于該描述決議二進制資料,提供二進制資料與有含義的物件的相互轉換,
思路1:基于組態檔
此處以自定義的二進制指令封裝為例進行說明(專案地址),但該配置專案適用于任意二進制資料封裝場景,面對這個需求,首先想到的是通過組態檔描述二進制流每一位的含義,加載組態檔后根據一些過濾條件配置確定當前二進制流段實際對應的配置并決議為字典,
由于專案包括一些嵌入式的內容,需要把所有檔案編譯后燒入板子,不支持存盤普通檔案格式的組態檔,所以采用變數形式的配置,全域宣告配置的型別資訊和配置物件(cmd_manager),專案內任意位置定義該配置物件即可,在其他場景也可選擇 Json、xml 等配置格式,
本文設計的配置物件定義方式如下:
/**
* 載荷配置項
*/
const CmdManager cmd_manager = { 2, { // 指令個數,下面是每一個指令的配置
{"TCRQ", 3, { // 配置項名,配置項對應的欄位數
{"TE_SEQ_NO", -1, &FT_SHORT, 0}, // 具體配置項內欄位配置(欄位名,欄位偏移,欄位型別,配置項該欄位過濾條件
{"CMD", -1, &FT_CHARS_4, "TCRQ"}, // 配置項要求該欄位等于"TCRQ",資料不滿足則不匹配該配置項
{"REPEAT_COUNT", -1, &FT_SHORT, 0}}}
}};
專案會自動加載該配置物件,之后針對原始二進制資料通過 PayloadObjectMapFactory 工廠匹配對應配置并生成資料物件,可從資料物件獲得該物件型別(配置項名)并讀寫其中的欄位值,或者指定配置項創建空的資料物件,進行資料設定后獲得其原始二進制資料載荷,
評價:
該思路通過組態檔可以自由且動態的調整決議方式,易于復用、拓展或調整,其難點在于配置格式的設計,同時字典型別資料無法如直接宣告型別結構那樣清晰易用,
思路2:基于資料底層存盤方式
此處以計算機網路資料幀封裝為例進行說明,c++ 底層對物件/結構體的成員欄位采用型別對齊連續存盤方式,使用該特性可以基于實際含義自然宣告、使用欄位,同時可以直接作為二進制資料流處理,實作示例如下:
/**
* 資料抽象類,提供二進制流到物件的相互轉化能力
* 內部類,只復用代碼,不用于多型
* @tparam size 資料位元組長度
*/
template<int size>
class DataType {
public:
DataType() { resetData(); }
// 初始化所有資料
void resetData() const { memset((void *) (this), 0, size); }
// 從二進制流加載資料
bool loadData(const std::vector<uint8_t>& data, int startIndex=0) {
auto * p = (uint8_t *) this; // 將自身當作二進制陣列處理
for (int i = 0; i < size; i++) {
*p = data[i + startIndex];
p++;
}
return true;
}
// 基于自身生成新的二進制資料流
[[nodiscard]] std::vector<uint8_t> createData() const {
std::vector<uint8_t> result;
auto p = (uint8_t const *) this;
for (int i = 0; i < size; i++) {
result.push_back(*p);
p++;
}
return result;
}
[[nodiscard]] int getSize() const { return size; }
};
// 以順序宣告方式定義具體的二進制資料型別,支持嵌套宣告
class MACHeader : public DataType<14> {
public:
// 通過上述無符號整形與位元組流相互轉化的方法將netType的讀寫進行封裝
[[nodiscard]] uint16_t getNetType() const {
return payloadToUnsignedInt(std::vector<uint8_t>(netType.begin(), netType.end()), 2, uint16_t(0));
}
void setNetType(uint16_t _netType) {
auto data = https://www.cnblogs.com/zhe-si/archive/2022/08/04/uintToPayload(_netType, 2);
std::copy(data.begin(), data.end(), netType.begin());
}
// 提供與json互轉的能力,為了提供映射為python物件的能力
bool loadJson(const Json::Value& json);
[[nodiscard]] Json::Value createJson() const;
std::array desMac; // 占多個位元組的資料采用std::array陣列描述,可避免型別丟失,同時保證資料型別仍然一致對其
std::array srcMac;
std::array netType;
};
本專案還需要提供 c++ 的資料幀物件映射到 python 物件的能力,為了簡化 CPython 的拓展方法介面,c++ 層提供從 json 加載或生成 json 的能力,在 python 層實作一個 json 快取,通過快取提交和更新實作資料管理,為了致敬git,專案實際提交和更新方法命名為 push 和 pull,(╯▔^▔)╯,
評價:
該思路通過一種類似順序宣告的方式(有點像配置)定義資料流每個位置的實際含義,使用時清晰直接,并巧妙的通過其底層原理便捷的在物件和二進制資料流之間提供轉化操作,但由于其需要實際宣告型別,不如思路1動態靈活易復用,
本文來自博客園,作者:_哲思,轉載請注明原文鏈接:https://www.cnblogs.com/zhe-si/p/16550833.html
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/500962.html
標籤:其他
