一篇文章搞懂到底什么是渲染流水線-有解無憂

本文實際上是《Unity Shader入門精要》一書的讀書筆記，書中關于渲染流水線的講解清楚易懂，非常適合作為Shader學習的入門書籍，自知好記性不如爛筆頭，遂將相關內容再結合自己的一些理解寫作這篇博客記錄下來，

我們將影像繪制的流程稱為渲染流水線，是由CPU和GPU協作完成的，一般一個渲染流程可以分成3個概念階段，分別是：應用階段（Application Stage），幾何階段（Geometry Stage），光柵化階段（Rasterizer Stage），

應用階段

應用階段是在CPU中進行的，主要任務是準備好場景資料，設定好渲染狀態，然后輸出渲染圖元，即為下一階段提供所需的幾何資訊，什么是圖元？圖元是指渲染的基本圖形，通俗來講圖元可以是頂點，線段，三角面等，復雜的圖形可以通過渲染多個三角形來實作，
應用階段可細分為3個子階段

把資料加載到顯存中，所有渲染所需的資料都需要從硬碟加載到系統記憶體中（RAM），然后網格和紋理等資料又被加載到顯存（VRAM），這是因為顯卡對于顯存的訪問速度更快，而且大多數顯卡對于RAM沒有直接的訪問權利，
設定渲染狀態，比如設定使用的著色器，材質，紋理，光源屬性等，
呼叫Draw Call，Draw Call就是一個命令，它的發起方是CPU，接收方是GPU，這個命令僅僅會指向一個需要被渲染的圖元串列，而不會再包含任何材質資訊，這是因為我們已經在上一個階段設定過了，當給定了一個Draw Call時，GPU就會根據渲染狀態和所有輸入的頂點資料來進行計算，最終輸出成螢屏上顯示的那些漂亮的像素，

幾何階段

幾何階段是在GPU上進行的，主要任務是輸出螢屏空間的頂點資訊，幾何階段用于處理從上一階段接收到的待繪制物體的幾何資料（可以理解為Draw Call指向的圖元串列），與每個渲染圖元打交道，進行逐頂點，逐多邊形的操作，幾何階段的一個重要任務就是把頂點坐標變換到螢屏空間中，再交給光柵化器進行處理，通過對輸入的圖元進行多步處理后，這一階段將會輸出螢屏空間的二維頂點坐標，每個頂點對應的深度值，著色等相關資訊，

光柵化階段

這一階段也是在GPU上執行的，將會使用上個階段傳遞的資料來產生螢屏上的像素，并輸出最終的影像，光柵化的任務主要是決定每個渲染圖元中的哪些像素應該被繪制在螢屏上，它需要對上一個階段得到的逐頂點資料（例如紋理坐標，頂點顏色等）進行插值，然后再進行逐像素處理，可以這樣理解，幾何階段只是得到了圖元頂點的相關資訊，例如對于三角形圖元，得到的就是三個頂點的坐標和顏色資訊等，而光柵化階段要做的就是根據這三個頂點，計算出這個三角形覆寫了哪些像素，并為這些像素通過插值計算出它們的顏色，

GPU渲染流水線（幾何階段和光柵化階段）

綠色表示完全可編程控制，黃色表示可配置，藍色表示由GPU固定實作，不可修改，實線表示必須由開發者編程實作，虛線表示該Shader是可選的，下面我們將分別介紹上圖中的主要子階段，
（順便提一下，曲面細分著色器可用于細分圖元，例如將三角面細分成更小的三角面來添加幾何細節，幾何著色器可決定輸出的圖元型別和個數，當輸出的圖元減少時，實際上起到了裁剪的作用，當輸出的圖元增多或型別改變時，起到了產生或改變圖元的作用）

頂點著色器

頂點著色器的處理單位是頂點，輸入進來的每個頂點都會呼叫一次頂點著色器，頂點著色器本身不可以創建或者銷毀任何頂點，而且無法得到頂點和頂點之間的關系，例如我們無法得知兩個頂點是否屬于同一個三角網格，但正因為這樣的相互獨立性，GPU可以利用本身的特性并行化處理每一個頂點，這意味著這一階段的處理速度會很快，
頂點著色器完成的作業主要有：坐標變換和逐頂點光照，

頂點著色器必須進行頂點的坐標變換，需要時還可以計算和輸出頂點的顏色，例如我們可能需要進行逐頂點的光照，
坐標變換，就是對頂點的坐標進行某種變換，頂點著色器可以在這一步中改變頂點的位置，這在頂點影片中是非常有用的，無論我們在頂點著色器中怎樣改變頂點的位置，一個基本的頂點著色器必須要完成的一個作業是，把頂點坐標從模型空間轉換到齊次裁剪空間，

把頂點坐標轉換到齊次裁剪空間后，接著通常再由硬體做透視除法，最終得到歸一化的設備坐標（NDC），

裁剪

裁剪階段的目的是將那些不在攝像機視野內的頂點裁減掉，并剔除某些三角圖元的面片（面片通常是由一個一個更小的圖元來構成的），
一個圖元和攝像機視野的關系有3種：完全在視野內，部分在視野內，完全在視野外，完全在視野內的圖元就繼續傳遞給下一個流水線階段，完全在視野外的圖元不會繼續向下傳遞，因為它們不需要被渲染，而那些部分在視野內的圖元需要被裁剪，例如，一條線段的頂點在視野內，而另一個頂點不在視野內，那么在視野外部的頂點應該使用一個新的頂點來代替，這個新的頂點位于這條線段和視野邊界的交點處，

螢屏映射

這一步輸入的坐標仍然是三維坐標系下的坐標（范圍在單位立方體內），螢屏映射的任務是把每個圖元的x和y坐標轉換到螢屏坐標系下，這實際上是一個縮放的程序，螢屏坐標系是一個二維坐標系，它和我們用于顯示畫面的解析度有很大關系，

螢屏映射得到的螢屏坐標決定了這個頂點對應螢屏上哪個像素以及距離這個像素有多遠，
螢屏映射不會對輸入的z坐標做任何處理，實際上，螢屏坐標系和z坐標一起構成了視窗坐標系，這些值會被一起傳遞到光柵化階段，

三角形設定

這個階段會計算光柵化一個三角網格所需的資訊，具體來說，上一個階段輸出的都是三角網格的頂點，但如果要得到整個三角網格對像素的覆寫情況，我們就必須計算每條邊上的像素坐標，為了能夠計算邊界像素的坐標資訊，我們就需要得到三角形邊界的表示方式，這樣一個計算三角網格表示資料的程序就叫做三角形設定，它的輸出是為了給下一個階段做準備，

三角形遍歷

三角形遍歷階段將會檢查每個像素是否被一個三角網格所覆寫，如果被覆寫的話，就會生成一個片元，而這樣一個找到哪些像素被三角網格覆寫的程序就是三角形遍歷，這個階段也被稱為掃描變換，
三角形遍歷階段會根據上一個階段的計算結果來判斷一個三角網格覆寫了哪些像素，并使用三角網格3個頂點的頂點資訊對整個覆寫區域的像素進行插值，像素和片元是一一對應的，每個像素都會生成一個片元，片元中的狀態記錄了對應像素的資訊，是對三個頂點的資訊進行插值得到的，

這一步的輸出就是得到一個片元序列，需要注意的是一個片元并不是真正意義上的像素，而是包含了很多狀態的集合，這些狀態用于計算每個像素的最終顏色，這些狀態包括了但不限于它的螢屏坐標，深度資訊，以及其他從幾何階段輸出的頂點資訊，例如法線，紋理坐標等，

片元著色器

片元著色器用于實作逐片元的著色操作，輸出是一個或者多個顏色值（即計算該片元對應像素的顏色，但不是最終顏色），這一階段可以完成很多重要的渲染技術，其中最重要的技術之一就是紋理采樣，為了在片元著色器中進行紋理采樣，我們通常會在頂點著色器階段輸出每個頂點對應的紋理坐標，然后經過光柵化階段對三角網格的3個頂點對應的紋理坐標進行插值后，就可以得到其覆寫的片元的紋理坐標了，

根據上一步插值后的片元資訊，片元著色器計算該片元的輸出顏色
雖然片元著色器可以完成很多重要效果，但它的局限在于，它僅可以影響單個片元，也就是說，當執行片元著色器時，它不可以將自己的任何結果直接發送給它的鄰居們，當然導數資訊例外，

逐片元操作

逐片元操作階段負責執行很多重要的操作，例如修改顏色，深度緩沖，進行混合等，
這一階段有幾個主要任務

決定每個片元的可見性，這涉及了很多測驗作業，例如深度測驗，模板測驗等，
如果一個片元通過了所有的測驗，就需要把這個片元的顏色值和已經存盤在顏色緩沖區中的顏色進行合并，或者說是混合，

一個片元，只有通過了所有的測驗后，才能和顏色緩沖區中已經存在的像素顏色進行混合，最后再寫入顏色緩沖區，

模板測驗

模板測驗，可以作為一種丟棄片元的輔助方法，與之相關的是模板緩沖，如果開啟了模板測驗，GPU會首先讀取（使用讀取掩碼）模板緩沖區中該片元位置的模板值，然后將該值和讀取到（使用讀取掩碼）的參考值進行比較，這個比較函式可以是由開發者指定的，例如小于時舍棄該片元，或者大于等于時舍棄，如果這個片元沒有通過這個測驗，該片元就會被舍棄，不管一個片元有沒有通過模板測驗，我們都可以根據模板測驗和下面的深度測驗結果來修改模板緩沖區，這個修改操作也是由開發者指定的，開發者可以設定不同結果下的修改操作，例如，在失敗時模板緩沖區保持不變，通過時將模板緩沖區中對應位置的值加1等，模板測驗通常用于限制渲染的區域，另外模板測驗還有一些更高級的用法，如渲染陰影，輪廓渲染等，

深度測驗

如果開啟了深度測驗，GPU會把該片元的深度值和已經存在于深度緩沖區中的深度值進行比較，這個比較函式也是由開發者設定的，通常如果這個片元的深度值大于等于當前深度緩沖區中的值，那么就會舍棄它，因為我們總想只顯示出離攝像機最近的物體，而那些被其他物體遮擋的就不需要出現在螢屏上，如果這個片元沒有通過這個測驗，該片元就會被舍棄，和模板測驗不同的是，如果一個片元沒有通過深度測驗，它就沒有權利更改深度緩沖區中的值，而如果它通過了測驗，開發者還可以指定是否要用這個片元的深度值覆寫掉原有的深度值，這是通過開啟/關閉深度寫入來做到的，

混合

為什么需要混合？渲染程序是一個物體接著一個物體畫到螢屏上的，而每個像素的顏色資訊被存盤在一個名為顏色緩沖的地方，因此，當我們執行這次渲染時，顏色緩沖中往往已經有了上次渲染之后的顏色結果，那么我們是使用這次渲染得到的顏色完全覆寫掉之前的結果，還是進行其他處理？這就是混合需要解決的問題，
對于不透明物體，開發者可以關倍訓合操作，但對于不透明物體，我們就需要使用混合操作來讓這個物體看起來是透明的，

使用混合函式來進行混合操作，混合函式通常和透明通道息息相關，例如根據透明通道的值進行相加，相減，相乘等，
需要注意的是，上面給出的測驗順序并不是唯一的，對于大多數GPU來說，它們會盡可能在執行片元著色器之前就進行這些測驗，但是，如果將這些測驗提前的話，其檢驗結果可能會與片元著色器中的一些操作沖突，例如，如果我們在片元著色器進行了透明度測驗，而這個片元沒有通過透明度測驗，我們會通過呼叫API來手動將其舍棄掉，這就導致GPU無法提前執行各種操作，因此現代的GPU會判斷片元著色器中的操作是否和提前測驗發生沖突，如果有沖突，就會禁用提前測驗，但是，這樣也會造成性能上的下降，因為有更多片元需要被處理了，這也是透明度測驗會導致性能下降的原因，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/10423.html

標籤：其他

上一篇：梨視頻(PearVideo)下載決議的方法和技巧，梨視頻下載到本地

下一篇：學習Shader所需的數學基礎（坐標系，點和矢量）