測驗環境:
? tmp uname --version
uname (GNU coreutils) 8.25
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
Written by David MacKenzie.
? tmp gcc --version
gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0
Copyright (C) 2017 Free Software Foundation, Inc.
This is free software; see the source for copying conditions. There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
1 目標檔案格式
??PC平臺的目標檔案格式大都是COFF的變種,比如Windows的PE(Portable Executable)格式和Linux的ELF(Executable Linkable Format)格式,并且我們一般講的目標檔案格式多指可執行檔案,但是實際上編譯程序中的靜態庫檔案、動態庫檔案和.o或者.obj檔案都屬于目標檔案,常見的目標檔案分類:
| 目標檔案型別 | 說明 | 舉例 |
|---|---|---|
| 可執行檔案 | 可以直接執行的程式 | windows的exe檔案、linux的可執行檔案、macOs的app檔案 |
| 共享目標檔案 | 包含了程式的代碼和資料,可以在鏈接階段和其他可重定位目標檔案或者共享目標檔案鏈接生成可執行檔案;作為動態共享的鏈接庫,在程式運行時進行裝載 | Linux的so,windows的dll,macOs的dylib |
| 核心轉儲檔案 | 當程式意外終止時,系統保存的行程的地址空間等資訊的轉儲檔案 | linux的core dump |
| 可重定位檔案 | 包含程式的代碼和資料,可被用來鏈接為目標檔案 | 靜態庫,.o檔案或者.obj檔案 |
2 目標檔案內容
??目標檔案中無疑包含程式運行的代碼和資料,只是如何對這些內容進行管理?目標檔案管理這些內容通過段的方式進行,不同型別的資料等資訊通過段進行區分,分段的好處:
- 程式中代碼是只讀,部分資料可讀可寫,通過分段能夠方便進行權限管理;
- 計算機的八二原則,不同資料和代碼分開存盤能夠有效利用計算機的快取功能;
- 有利于資源共享,通常計算機中代碼是只讀的,因此當又多個程式需要使用同一份代碼時,可以將共享的內容區分開方便共享,節省資源,
嘗試使用相關命令查看目標檔案的內容:
??使用的檔案示例,檔案中包含常量字串、靜態初始化變數、靜態未初始化變數、區域初始化變數、區域未初始化變數、全域初始化變數和全域未初始化變數以及簡單函式呼叫(檔案中帶a的都是初始化過的,帶b的都是未經初始化的),查看使用的命令的簡單用法見Linux objdump使用,
int add(int a, int b){
return a + b;
}
const char *file = "main.o";
int glob_a = 15;
int glob_b;
//test
int main(){
static char static_a = 16;
static char static_b;
long long a = 3;
long long b;
add(a, b);
}
??使用gcc -c main.cpp -o main.o編譯生成main.o,使用objdmup -h main.o查看各個段的大小:
Idx Name Size VMA LMA File off Algn
0 .text 0000003e 0000000000000000 0000000000000000 00000040 2**0
CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE
1 .data 00000005 0000000000000000 0000000000000000 00000080 2**2
CONTENTS, ALLOC, LOAD, DATA
2 .bss 00000005 0000000000000000 0000000000000000 00000088 2**2
ALLOC
3 .rodata 00000007 0000000000000000 0000000000000000 00000088 2**0
CONTENTS, ALLOC, LOAD, READONLY, DATA
4 .data.rel.local 00000008 0000000000000000 0000000000000000 00000090 2**3
CONTENTS, ALLOC, LOAD, RELOC, DATA
5 .comment 0000002a 0000000000000000 0000000000000000 00000098 2**0
CONTENTS, READONLY
6 .note.GNU-stack 00000000 0000000000000000 0000000000000000 000000c2 2**0
CONTENTS, READONLY
7 .eh_frame 00000058 0000000000000000 0000000000000000 000000c8 2**3
CONTENTS, ALLOC, LOAD, RELOC, READONLY, DATA
??size main.o能夠查看資料段和代碼段的大小:
text data bss dec hex filename
152 16 8 176 b0 main.o
??從上面的結果中:第一列為段的索引;第二列為段的名稱;第三列為段的尺寸;第三列為段的虛擬記憶體地址;第四段為區域記憶體地址;第五列為段在程式中的偏移;每個段再買呢的欄位CONTENTS表示該段在檔案中存在,READONLY表示只讀,ALLOC表示表示有該標記的節會在運行時分配并裝載進入記憶體,根據檔案中的偏移畫出的檔案結構圖如下:

??從輸出的段結構圖中能夠看到bss和rodata的偏移一致,且二者都有各自的尺寸,并且雖然有.note.GUN-stack但是該段沒有尺寸:
.text:代碼段,存盤程式的代碼,可以通過objdump -s -d main.o反匯編查看;.data:資料段,存盤已經初始化了的全域靜態變數和區域靜態變數,從圖中查看剛好一個int和char的尺寸;.bss:存盤未經初始化的全域變數和區域靜態變數,尺寸計算同.data;.rodata:存放只讀資料,程式中main.o的字串長度為6,而該段長度為7推斷包含最后的\0;.comment:存放編譯版本資訊;.note.GNU-stack:堆疊提示段;.eh_frame:主要用于系統運行時除錯使用的,便于堆疊展開除錯,
??使用objdump -s main.o查看每個段的具體內容,能夠看到data段中0f和10剛好對應15和16:
Contents of section .data:
0000 0f000000 10 .....
Contents of section .rodata:
0000 6d61696e 2e6f00 main.o.
Contents of section .data.rel.local:
0000 00000000 00000000 ........
Contents of section .comment:
0000 00474343 3a202855 62756e74 7520372e .GCC: (Ubuntu 7.
0010 352e302d 33756275 6e747531 7e31382e 5.0-3ubuntu1~18.
0020 30342920 372e352e 3000 04) 7.5.0.
??上面的內容中并未看到bss的內容,通過查看符號表objdump -t main.o能夠看到未經初始化的static_b和glob_b存盤在bss中,但是這也不是很絕對,因為全域符號存在強符號和弱符號的區分,未經初始化的全域變數可能初始化為COMMON在鏈接時再分配記憶體,
SYMBOL TABLE:
0000000000000000 l df *ABS* 0000000000000000 main.cpp
0000000000000000 l d .text 0000000000000000 .text
0000000000000000 l d .data 0000000000000000 .data
0000000000000000 l d .bss 0000000000000000 .bss
0000000000000000 l d .rodata 0000000000000000 .rodata
0000000000000000 l d .data.rel.local 0000000000000000 .data.rel.local
0000000000000004 l O .data 0000000000000001 _ZZ4mainE8static_a
0000000000000004 l O .bss 0000000000000001 _ZZ4mainE8static_b
0000000000000000 l d .note.GNU-stack 0000000000000000 .note.GNU-stack
0000000000000000 l d .eh_frame 0000000000000000 .eh_frame
0000000000000000 l d .comment 0000000000000000 .comment
0000000000000000 g F .text 0000000000000014 _Z3addii
0000000000000000 g O .data.rel.local 0000000000000008 file
0000000000000000 g O .data 0000000000000004 glob_a
0000000000000000 g O .bss 0000000000000004 glob_b
0000000000000014 g F .text 000000000000002a main
??下面時將源檔案使用c進行編譯得到的未初始化的全域符號的存盤方式,時典型的弱符號存盤方式:
0000000000000004 O *COM* 0000000000000004 glob_b
??ELF檔案還包含很多其他段,比如除錯資訊相關的段不再贅述,
3 ELF檔案結構
??ELF檔案的格式大致如下,其中比較重要的時檔案頭和段表:檔案頭描述檔案的基本資訊;段表類似所有段即section的指標表,


ELF Header:
??可以使用readelf -h main.o查看可執行檔案中的header,ELF Header 中定義了 ELF Magic Code、檔案機器位元組長度、資料存盤方式、版本、運行平臺、ABI 版本、ELF 重定位型別、硬體平臺、硬體平臺版本、入口地址、程式頭入口與長度、Section Header 的偏移位置和長度以及 Section 數量等,
ELF Header:
Magic: 7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00
Class: ELF64
Data: 2's complement, little endian
Version: 1 (current)
OS/ABI: UNIX - System V
ABI Version: 0
Type: REL (Relocatable file)
Machine: Advanced Micro Devices X86-64
Version: 0x1
Entry point address: 0x0
Start of program headers: 0 (bytes into file)
Start of section headers: 1000 (bytes into file)
Flags: 0x0
Size of this header: 64 (bytes)
Size of program headers: 0 (bytes)
Number of program headers: 0
Size of section headers: 64 (bytes)
Number of section headers: 15
Section header string table index: 14
段表:
??段表顧名思義,存盤不同段的地方,實際存盤的時段的描述符,該描述符會描述段的型別,大小等資訊,可通過readelf -S main.o查看,因為下面需要用到一些段因此貼到這里,
There are 15 section headers, starting at offset 0x3e8:
Section Headers:
[Nr] Name Type Address Offset
Size EntSize Flags Link Info Align
[ 0] NULL 0000000000000000 00000000
0000000000000000 0000000000000000 0 0 0
[ 1] .text PROGBITS 0000000000000000 00000040
000000000000003e 0000000000000000 AX 0 0 1
[ 2] .rela.text RELA 0000000000000000 00000310
0000000000000018 0000000000000018 I 12 1 8
[ 3] .data PROGBITS 0000000000000000 00000080
0000000000000005 0000000000000000 WA 0 0 4
[ 4] .bss NOBITS 0000000000000000 00000088
0000000000000005 0000000000000000 WA 0 0 4
[ 5] .rodata PROGBITS 0000000000000000 00000088
0000000000000007 0000000000000000 A 0 0 1
[ 6] .data.rel.local PROGBITS 0000000000000000 00000090
0000000000000008 0000000000000000 WA 0 0 8
[ 7] .rela.data.rel.lo RELA 0000000000000000 00000328
0000000000000018 0000000000000018 I 12 6 8
[ 8] .comment PROGBITS 0000000000000000 00000098
000000000000002a 0000000000000001 MS 0 0 1
[ 9] .note.GNU-stack PROGBITS 0000000000000000 000000c2
0000000000000000 0000000000000000 0 0 1
[10] .eh_frame PROGBITS 0000000000000000 000000c8
0000000000000058 0000000000000000 A 0 0 8
[11] .rela.eh_frame RELA 0000000000000000 00000340
0000000000000030 0000000000000018 I 12 10 8
[12] .symtab SYMTAB 0000000000000000 00000120
0000000000000198 0000000000000018 13 12 8
[13] .strtab STRTAB 0000000000000000 000002b8
0000000000000051 0000000000000000 0 0 1
[14] .shstrtab STRTAB 0000000000000000 00000370
0000000000000076 0000000000000000 0 0 1
Key to Flags:
W (write), A (alloc), X (execute), M (merge), S (strings), I (info),
L (link order), O (extra OS processing required), G (group), T (TLS),
C (compressed), x (unknown), o (OS specific), E (exclude),
l (large), p (processor specific)
重定位表:
??重定位表主要記錄了目標檔案中所有需要重定位的符號所在的段以及相對(相對于該段開始)偏移位置,可以使用objdump -r main.o查看該表的內容,從內容中能夠看到存盤的時相關函式和變數的在目標檔案中的相對位置,
Relocation section '.rela.text' at offset 0x310 contains 1 entry:
Offset Info Type Sym. Value Sym. Name + Addend
000000000033 000c00000002 R_X86_64_PC32 0000000000000000 _Z3addii - 4
Relocation section '.rela.data.rel.local' at offset 0x328 contains 1 entry:
Offset Info Type Sym. Value Sym. Name + Addend
000000000000 000500000001 R_X86_64_64 0000000000000000 .rodata + 0
Relocation section '.rela.eh_frame' at offset 0x340 contains 2 entries:
Offset Info Type Sym. Value Sym. Name + Addend
000000000020 000200000002 R_X86_64_PC32 0000000000000000 .text + 0
000000000040 000200000002 R_X86_64_PC32 0000000000000000 .text + 14
字串表:
??字串表中存盤ELF檔案中使用到的字串,一般有三種字串表分別為shstrtab保存section頭中保存的字串;strtab保存elf中使用到的字串;dynstr保存了動態鏈接字串表,表中存放了一系列字串,這些字串代表了符號名稱,以空字符作為終止符,
4 鏈接中的符號
4.1 符號
??程式需要鏈接的原因時因為程式的每個檔案特別是C類的語言時單獨分模塊編譯的,每個編譯單元僅僅知道當前編譯單元中的資訊,當參考到其他編譯單元的函式或者變數時無法明確該變數或者函式的地址,因此需要在連接時將這些符號的地址明確,一般函式和變數統稱為符號,函式名和變數名為符號名,
??編譯時每個編譯單元都會有一個符號表表明對應的符號在當前編譯單元中的地址和值,因此在鏈接時需要將多個編譯單元的符號表合并,
??使用readelf -s main.o查看符號表,能夠看到符號表中包含符號的名稱、索引、值、尺寸、作用域等資訊,
Symbol table '.symtab' contains 17 entries:
Num: Value Size Type Bind Vis Ndx Name
0: 0000000000000000 0 NOTYPE LOCAL DEFAULT UND
1: 0000000000000000 0 FILE LOCAL DEFAULT ABS main.cpp
2: 0000000000000000 0 SECTION LOCAL DEFAULT 1
3: 0000000000000000 0 SECTION LOCAL DEFAULT 3
4: 0000000000000000 0 SECTION LOCAL DEFAULT 4
5: 0000000000000000 0 SECTION LOCAL DEFAULT 5
6: 0000000000000000 0 SECTION LOCAL DEFAULT 6
7: 0000000000000004 1 OBJECT LOCAL DEFAULT 3 _ZZ4mainE8static_a
8: 0000000000000004 1 OBJECT LOCAL DEFAULT 4 _ZZ4mainE8static_b
9: 0000000000000000 0 SECTION LOCAL DEFAULT 9
10: 0000000000000000 0 SECTION LOCAL DEFAULT 10
11: 0000000000000000 0 SECTION LOCAL DEFAULT 8
12: 0000000000000000 20 FUNC GLOBAL DEFAULT 1 _Z3addii
13: 0000000000000000 8 OBJECT GLOBAL DEFAULT 6 file
14: 0000000000000000 4 OBJECT GLOBAL DEFAULT 3 glob_a
15: 0000000000000000 4 OBJECT GLOBAL DEFAULT 4 glob_b
16: 0000000000000014 42 FUNC GLOBAL DEFAULT 1 main
特殊符號:鏈接生成可執行檔案時會連接器會定義很多特殊符號:
executable_start:程式起始地址;etext,_etext,__etext:代碼段的結束地址;edata,_edata:資料段的結束地址;end,_end:程式的結束地址,
#include <stdio.h>
extern char __executable_start[];
extern char etext[], _etext[], __etext[];
extern char edata[], _edata[];
extern char end[], _end[];
int main(){
printf("executable start %X\n", __executable_start);
printf("text end %X %X %X\n", etext, _etext, __etext);
printf("data end %X %X\n", edata, _edata);
printf("executable end %X %X\n", end, _end);
return 0;
}
??運行結果:
executable start CB200000
text end CB20075D CB20075D CB20075D
data end CB401010 CB401010
executable end CB401018 CB401018
4.1 函式簽名
??編譯器為了更好的參考其他模塊中的符號對模塊中使用到的符號進行符號修飾,即符號簽名,簽名規則:
- 所有的符號都以"_Z"開頭,對于嵌套的名字(在名稱空間或在類里面的),后面緊跟"N";
-然后是各個名稱空間和類的名字,每個名字前是名字字串長度,再以"E"結尾,比如N::C::func經過名稱修飾以后就是_ZN1N1C4funcE; - 對于一個函式來說,它的引數串列緊跟在"E"后面,對于int型別來說,就是字母"i",所以整個N::C::func(int)函式簽名經過修飾為_ZN1N1C4funcEi,
??符號簽名中包含引數型別也是C++實作函式多載的基礎,但是C++也常常需要使用C的介面,如果使用C++的符號簽名則無法找到對應的介面,可利用C++中的extern "C"關鍵字保證對應的函式的符號簽名使用C的規則,
4.2 弱符號和強符號
??C中存在強符號和弱符號,強符號不允許多重定義,弱符號允許多個定義但是實際運行時只有一個物體,對于C語言來說,編譯器默認函式和初始化了的全域變數為強符號,未初始化的全域變數為弱符號(C++并沒有將未初始化的全域符號視為弱符號),
對于它們,下列三條規則使用:
- 同名的強符號只能有一個,否則編譯器報"重復定義"錯誤;
- 允許一個強符號和多個弱符號,但定義會選擇強符號的;
- 當多個弱符號時,選擇占用空間最大的;
- 當有多個弱符號相同時,聯結器選擇最先出現那個,也就是與鏈接順序有關,
??強參考和弱參考主要針對函式,強參考如果未找到定義則報錯,二弱參考未找到定義則不報錯,如果未定義,連接器會將弱參考設定為0或者特殊值,弱參考可以用于介面設計,
5 reference
- introduce-elf
- elf檔案結構
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/301896.html
標籤:其他
下一篇:程式員之天梯排行榜,你在哪一級?
