關于C++的O2優化-有解無憂

Luogu評測姬的O2優化到底什么，為什么其他的OJ上沒有？

首先看一下G++原始碼的各種編譯指令

-fthread-jumps 
-falign-functions  
-falign-jumps 
-falign-loops 
-falign-labels 
-fcaller-saves 
-fcrossjumping 
-fcse-follow-jumps  
-fcse-skip-blocks 
-fdelete-null-pointer-checks 
-fdevirtualize 
-fdevirtualize-speculatively 
-fexpensive-optimizations 
-fgcse  
-fgcse-lm  
-fhoist-adjacent-loads 
-finline-small-functions 
-findirect-inlining 
-fipa-cp 
-fipa-cp-alignment 
-fipa-bit-cp 
-fipa-sra 
-fipa-icf 
-fisolate-erroneous-paths-dereference 
-flra-remat 
-foptimize-sibling-calls 
-foptimize-strlen 
-fpartial-inlining 
-fpeephole2 
-freorder-blocks-algorithm=stc 
-freorder-blocks-and-partition -freorder-functions 
-frerun-cse-after-loop  
-fsched-interblock  
-fsched-spec 
-fschedule-insns  
-fschedule-insns2 
-fstrict-aliasing 
-fstrict-overflow 
-ftree-builtin-call-dce 
-ftree-switch-conversion 
-ftree-tail-merge 
-fcode-hoisting 
-ftree-pre 
-ftree-vrp 
-fipa-ra

一個C/C++的程式從.c檔案到可執行檔案，其間經歷了幾步？我們知道：高級語言是偏向人，按照人的思維方式設計的，機器對這些可是莫名奇妙，不知所謂，那從高級語言是如何過渡到機器語言的呢？這可是一個漫長的旅途，其中，得經歷這樣的歷程：C源程式－>編譯預處理－>編譯－>匯編程式－>鏈接程式－>可執行檔案

從源程式( . cpp/ . c)到可執行檔案( . exe/ )

預處理讀取c源程式，對其中的偽指令（以#開頭的指令）和特殊符號進行處理，偽指令主要包括以下四個方面:
- （1）宏定義指令，如#define Name TokenString,#undef等，對于前一個偽指令，預編譯所要作得的是將程式中的所有Name用TokenString替換，但作為字串常量的Name則不被替換，對于后者，則將取消對某個宏的定義，使以后該串的出現不再被替換，
- （2）條件編譯指令，如#ifdef,#ifndef,#else,#elif,#endif,等等，這些偽指令的引入使得程式員可以通過定義不同的宏來決定編譯程式對哪些代碼進行處理，預編譯程式將根據有關的檔案，將那些不必要的代碼過濾掉，
- （3）加載頭檔案，如#include"FileName"或者#include等，采用頭檔案的目的主要是為了使某些定義可以供多個不同的C源程式使用，因為在需要用到這些定義的C源程式中，只需加上一條#include陳述句即可，而不必再在此檔案中將這些定義重復一遍，預編譯程式將把頭檔案中的定義統統都加入到它所產生的輸出檔案中，以供編譯程式對之進行處理，包含到c源程式中的頭檔案可以是系統提供的，這些頭檔案一般被放在/usr/include目錄下，在程式中#include它們要使用尖括號（<>），另外開發人員也可以定義自己的頭檔案，這些檔案一般與c源程式放在同一目錄下，此時在#include中要用雙引號（""），預編譯是將.c 檔案轉化成 .i檔案，　　重定向使用的gcc命令是：gcc –E hello.c >hello.i 在預處理階段是不做語法檢查的，
編譯階段：需要進行三個步驟：詞法分析、語法分析和語意分析在linux環境中，輸入命令：gcc–s hello.c 引數c告訴gcc命令只進行編譯，不做其他處理，命令運行結束后產生hello.o的目標檔案，
匯編程序編譯程序實際上指把匯編語言代碼翻譯成目標機器指令的程序，對于被翻譯系統處理的每一個C語言源程式，都將最終經過這一處理而得到相應的目標檔案，目標檔案中所存放的也就是與源程式等效的目標的機器語言代碼，輸入命令：gcc –c hello.c 就會生成hello.o的目標檔案， 4.鏈接程序鏈接就是將不同部分的代碼和資料收集和組合成為一個單一檔案的程序,這個檔案可被加載或拷貝到存盤器執行. 鏈接可以執行與編譯時(源代碼被翻譯成機器代碼時),也可以執行與加載時(在程式被加載器加載到存盤器并執行時),甚至執行與運行時,由應用程式來執行.在現代系統中, 鏈接是由聯結器自動執行的. 聯結器分為:靜態聯結器和動態聯結器兩種.

（1）. 靜態聯結器靜態聯結器以一組可重定位目標檔案和命令列引數作為輸入,生成一個完全鏈接的可以加載和運行的可執行目標檔案作為輸出.

靜態聯結器主要完成兩個任務:

1>符號決議:目標檔案定義和參考符號.符號決議的目的在于將每個符號參考和一個符號定義聯系起來.
2>重定位:編譯器和匯編器生成從地址零開始的代碼和資料節.聯結器通過把每個符號定義和一個存盤器位置聯系起來,然后修改所有對這些符號的參考,使得他們執行這個存盤位置,從而重定位這些節.

（2）動態聯結器共享庫是一個目標模塊,在運行時,可以加載到任意的存盤器地址,并在存盤器中和一個程式鏈接起來.這個程序稱為動態鏈接,是由動態聯結器完成的. 共享庫的共享在兩個方面有所不同.首先,在任何給定的檔案系統中,對于一個庫只有一個.so檔案.所有參考該庫德可執行目標檔案共享這個.so檔案中的代碼和資料,而不是像靜態庫的內容那樣被拷貝和嵌入到參考它們的可執行的檔案中.其次,在存盤器中,一個共享庫的.text只有一個副本可以被不同的正在運行的行程共享，

-O1,-O2,-O3為何方神圣，它們是如何優化編譯檔案的？

(1)首先，她們的真面目是： -O1 提供基礎級別的優化 -O2提供更加高級的代碼優化,會占用更長的編譯時間 -O3提供最高級的代碼優化可以使用-f命令列選項參考每個單獨的優化技術，

1. 編譯器優化級別1

在優化的第一個級別執行基礎代碼的優化這個級別試圖執行9種單獨的優化功能：

（1）.-fdefer-pop: 這種優化技術與匯編語言代碼在函式完成時如何進行操作有關，

（2）.-fmerge-constans: 使用這種優化技術, 編譯器試圖合并相同的常量.

(3) . -fthread-jumps: 使用這種優化技術與編譯器如何處理匯編代碼中的條件和非條件分支有關，在某些情況下, 一條跳轉指令可能轉移到另一條分支陳述句，通過一連串跳轉, 編譯器確定多個跳轉之間的最終目標并且把第一個跳轉重新定向到最終目標，

(4).-floop-optimize:通過優化如何生成匯編語言中的回圈，編譯器可以在很大程式上提高應用程式的性能，通常, 程式由很多大型且復雜的回圈構成，通過洗掉在回圈內沒有改變值的變數賦值操作, 可以減少回圈內執行指令的數量, 在很大程度上提高性能，此外優化那些確定何時離開回圈的條件分支，以便減少分支的影響，

(5).-fif-conversion: if-then陳述句應該是應用程式中僅次于回圈的最消耗時間的部分，簡單的if-then陳述句可能在最終的匯編語言代碼中產生眾多的條件分支，通過減少或者洗掉條件分支, 以及使用條件傳送設定標志和使用運算技巧來替換他們, 編譯器可以減少if-then陳述句中花費的時間量，

（6）-fif-conversion2: 這種技術結合更加高級的數學特性，減少實作if-then陳述句所需的條件分支，

（7）-fdelayed-branch: 這種技術試圖根據指令周期時間重新安排指令，它還試圖把盡可能多的指令移動到條件分支前, 以便最充分的利用處理器的治理快取，

(8) -fguess-branch-probability:就像其名稱所暗示的, 這種技術試圖確定條件分支最可能的結果, 并且相應的移動指令, 這和延遲分支技術類似，因為在編譯時預測代碼的安排，所以使用這一選項兩次編譯相同的c或者c++代碼很可能會產生不同的匯編語言代碼，這取決于編譯時編譯器認為會使用那些分支，

（9）-fcprop-registers: 因為在函式中把暫存器分配給變數, 所以編譯器執行第二次檢查以便減少調度依賴性(兩個段要求使用相同的暫存器)并且洗掉不必要的暫存器復制操作，

2 . 編譯器優化級別2

結合了第一個級別的所有優化技術,再加上一下一些優化：

（1）-fforce-mem: 這種優化在任何指令使用變數前, 強制把存放再記憶體位置中的所有變數都復制到暫存器中，對于只涉及單一指令的變數, 這樣也許不會有很大的優化效果. 但是對于在很多指令(必須數學操作)中都涉及到的變數來說, 這會時很顯著的優化, 因為和訪問記憶體中的值相比 ,處理器訪問暫存器中的值要快的多，
（2）-foptimize-sibling-calls: 這種技術處理相關的和/或者遞回的函式呼叫，通常,遞回的函式呼叫可以被展開為一系列一般的指令，而不是使用分支，
（3）-fstrength-reduce: 這種優化技術對回圈執行優化并且洗掉迭代變數，迭代變數是捆綁到回圈計數器的變數, 比如使用變數, 然后使用回圈計數器變數執行數學操作的for-next回圈，
（4）-fgcse：這些優化操作試圖分析生成的匯編語言代碼并且結合通用片段，消除冗余的代碼段，如果代碼使用計算性的goto,gcc指令推薦
（5）-fcse-follow-jumps: 這種特別的通用子運算式消除技術掃描跳轉指令, 查找程式中通過任何其他途徑都不會到達的目標代碼，這種情況最常見的例子就式if-then-else陳述句的else部分，
（6）-frerun-cse-after-loop: 這種技術在對任何回圈已經進行過優化之后重新運行通用子運算式消除例程，這樣確保在展開回圈代碼之后更進一步地優化還編代碼，
（7）-fdelete-null-pointer-checks: 這種優化技術掃描生成的匯編語言代碼, 查找檢查空指標的代碼，
（8）-fextensive-optimizations: 這種技術執行從編譯時的角度來說代價高昂的各種優化技術，但是它可能對運行時的性能產生負面影響，
（9）-fregmove: 編譯器試圖重新分配mov指令中使用的暫存器, 并且將其作為其他指令運算元, 以便最大化捆綁的暫存器的數量，
（10）-fschedule-insns: 編譯器將試圖重新安排指令, 以便消除等待資料的處理器，對于在進行浮點運算時有延遲的處理器來說，這使處理器在等待浮點結果時可以加載其他指令，
（11）-fsched-interblock: 這種技術使編譯器能夠跨越指令塊調度指令，這可以非常靈活地移動指令以便等待期間完成的作業最大化，
（12）-fcaller-saves: 這個選項指示編譯器對函式呼叫保存和恢復暫存器, 使函式能夠訪問暫存器值, 而且不必保存和恢復他們，如果呼叫多個函式, 這樣能夠節省時間, 因為只進行一次暫存器的保存和恢復操作, 而不是在每個函式呼叫中都進行，
（13）-fpeephole2: 這個選項允許進行任何計算機特定的觀察孔優化，
（14）-freorder-blocks: 這種優化技術允許重新安排指令塊以便改進分支操作和代碼區域性，
（15）-fstrict-aliasing: 這種技術強制實行高級語言的嚴格變數規則，對于c和c++程式來說, 它確保不在資料型別之間共享變數. 例如, 整數變數不和單精度浮點變數使用相同的記憶體位置，
(16)-funit-at-a-time:這種優化技術指示編譯器在運行優化例程之前讀取整個匯編語言代碼，這使編譯器可以重新安排不消耗大量時間的代碼以便優化指令快取，
(17)-falign-functions:這個選項用于使函式對準記憶體中特定邊界的開始位置，大多數處理器按照頁面讀取記憶體，并且確保全部函式代碼位于單一記憶體頁面內, 就不需要叫化代碼所需的頁面，
（18）-fcrossjumping: 這是對跨越跳轉的轉換代碼處理，以便組合分散在程式各處的相同代碼，這樣可以減少代碼的長度，但是也許不會對程式性能有直接影響，

3. 編譯器優化級別3

它整合了第一和第二級別中的左右優化技巧, 還包括一下優化: -finline-functions:這種優化技術不為函式創建單獨的匯編語言代碼，而是把函式代碼包含在調度程式的代碼中，對于多次被呼叫的函式來說, 為每次函式呼叫復制函式代碼，雖然這樣對于減少代碼長度不利, 但是通過最充分的利用指令快取代碼, 而不是在每次函式呼叫時進行分支操作, 可以提高性能， -fweb: 構建用于保存變數的偽暫存器網路，偽暫存器包含資料, 就像他們是暫存器一樣, 但是可以使用各種其他優化技術進行優化, 比如cse和loop優化技術， -fgcse-after-reload:這中技術在完全重新加載生成的且優化后的匯編語言代碼之后執行第二次gcse優化,幫助消除不同優化方式創建的任何冗余段，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/141552.html

標籤：C++

上一篇：Django ListView DetailView等基于類的視圖如何添加裝飾器？

下一篇：C/C++的快讀

關于C++的O2優化

Luogu評測姬的O2優化到底什么，為什么其他的OJ上沒有？

從源程式(** . cpp/ ** . c)到可執行檔案(** . exe/ **)

-O1,-O2,-O3為何方神圣，它們是如何優化編譯檔案的？

1. 編譯器優化級別1

2 . 編譯器優化級別2

3. 編譯器優化級別3

從源程式( . cpp/ . c)到可執行檔案( . exe/ )