主頁 >  其他 > TVM 原始碼閱讀PASS — VectorizeLoop

TVM 原始碼閱讀PASS — VectorizeLoop

2023-06-25 07:50:27 其他

本文地址:https://www.cnblogs.com/wanger-sjtu/p/17501119.html

VectorizeLoop這個PASS就是對標記為ForKind::kVectorizedFor回圈做向量化處理,并對For回圈中的陳述句涉及到的變數,替換為Ramp,以便于在Codegen的程序中生成相關的向量化運算的指令,

VectorizeLoop這個PASS的入口函式如下,只有在打開enable_vectorize=true的情況下載才會被啟用,否則VectorizeSkipper會把ForKind::kVectorizedFor回圈替換為普通回圈,

Pass VectorizeLoop(bool enable_vectorize) {
  auto pass_func = [=](PrimFunc f, IRModule m, PassContext ctx) {
    auto* n = f.CopyOnWrite();
    if (enable_vectorize) {
      n->body = LoopVectorizer()(std::move(n->body));
    } else {
      n->body = VectorizeSkipper()(std::move(n->body));
    }
    return f;
  };
  return CreatePrimFuncPass(pass_func, 0, "tir.VectorizeLoop", {});
}

下面就以UT中的幾個例子,介紹一下原始碼實作,

vectorize_loop

dtype = "int64"
n = te.var("n")
ib = tvm.tir.ir_builder.create()
A = ib.pointer("float32", name="A")

with ib.for_range(0, n) as i:
 with ib.for_range(0, 4, kind="vectorize") as j:
     A[i*4+j] += tvm.tir.const(1, A.dtype)
stmt = ib.get()
assert isinstance(stmt.body, tvm.tir.For)
mod = tvm.IRModule.from_expr(tvm.tir.PrimFunc([A, n], stmt))
stmt = tvm.tir.transform.VectorizeLoop()(mod)["main"].body

上面的這個代碼完成的是,向量加法,長度為4n的向量A,對每個元素+1,

# before
for (i, 0, n) {
  vectorized (j, 0, 4) {
    A[((i*4) + j)] = (A[((i*4) + j)] + 1f)
  }
}
# after
for (i, 0, n) {
  A[ramp((i*4), 1, 4)] = (A[ramp((i*4), 1, 4)] + x4(1f))
}

可以看到在經過VectorizeLoop的PASS以后,內層的回圈消掉了,替換成為了一個Ramp的向量指令,這個在CPU中會被替換為SIMD指令(neon,AVX等)

PASS流程

在向量化的處理的PASS中是在LoopVectorizer中處理的,處理For回圈部分,

class LoopVectorizer : public StmtMutator {
 public:
  Stmt VisitStmt_(const ForNode* op) final {
    if (op->kind == ForKind::kVectorized) {
      ICHECK(is_zero(op->min));
      auto* extent_as_int = op->extent.as<IntImmNode>();
      if (!extent_as_int || extent_as_int->value < 1) {
        LOG(FATAL) << "Failed to vectorize loop with extent " << op->extent;
      }
      return Vectorizer(op->loop_var, static_cast<int>(extent_as_int->value))(op->body);
    } else {
      return StmtMutator::VisitStmt_(op);
    }
  }
};

當遇到需要向量化的節點時,首先記錄回圈變數和范圍,這個在后續替換相應的Load和Store操作為Ramp時用到,然后就到了Vectorizer部分,遍歷For回圈體,修改相應的stmt,

Vectorizer(Var var, int var_lanes) : var_(var), var_lanes_(var_lanes) {
    ramp_ = Ramp(0, 1, var_lanes);
}

在Vectorizer中對不同的PrimExprStmt做了多載,這里不逐一介紹,就以上面的向量加計算,介紹一下用到的函式以及流程,

首先看一下這里的上面sch的For的回圈內的計算邏輯:

 A[((i*4) + j)] = (A[((i*4) + j)] + 1f)

因為TVM中,Stmt的表達可以視為一個DSL的語言,訪問的時候也是按照深度優先的策略遍歷的AST,這里把上面的計算程序簡單表示為一個AST的語法樹,然后再分析一下流程中呼叫的各個函式是如何處理的,

從上面的AST的示意圖可以看出來,對于上面的sch,依次訪問了BufferStoreNodeAdd MulBufferLoadNode 等,這里就以這幾個Node的處理介紹一下向量化的程序,

所謂向量化的程序就是把這個標記為kVectorized的標量回圈操作映射到向量化的操作,對于上面的例子來說就是把所有關于j的訪問映射為RampNode,以便于后續處理可以正確生成相應的指令,

BufferStoreNode

BufferStoreNode中有三部分:

  • buffer——寫入的buffer
  • value——待寫入的值或者運算式
  • indices——寫入buffer的坐標
    這里的目的就是修改valueindices中的內容,
    對于indices,是在這里完成的,最終通過MapHelper依次訪問了indices的運算式,
auto fmutate = [this](const PrimExpr& index) { return this->VisitExpr(index); };
Array<PrimExpr> indices = op->indices.Map(fmutate);

對于value 則是直接遍歷,

PrimExpr value = https://www.cnblogs.com/wanger-sjtu/archive/2023/06/24/this->VisitExpr(op->value);
AddNode

對于AddNodeSubNode 都會走到AddSubVec這個模板函式,
這個函式里面首先會遍歷左右運算式,

PrimExpr a = this->VisitExpr(op->a);
PrimExpr b = this->VisitExpr(op->b);
if (a.same_as(op->a) && b.same_as(op->b)) {
 return GetRef<PrimExpr>(op);
} else {
int lanes = std::max(a.dtype().lanes(), b.dtype().lanes());
if (lanes != 1) {
 const RampNode* b_ramp = b.as<RampNode>();
 const RampNode* a_ramp = a.as<RampNode>();
 if (a.dtype().lanes() == 1 && b_ramp) {
   return Ramp(fcompute(a, b_ramp->base),
		 fcompute(make_zero(b_ramp->stride.dtype()), b_ramp->stride), b_ramp->lanes);
 }
 if (b.dtype().lanes() == 1 && a_ramp) {
   return Ramp(fcompute(a_ramp->base, b), a_ramp->stride, a_ramp->lanes);
 }
}
return fcompute(BroadcastTo(a, lanes), BroadcastTo(b, lanes));

如果遍歷之后沒有變化,就直接回傳了,而對于這里的我們需要計算的是

((i*4) + j)

j 是需要向量化的坐標,i*4 是沒有變化的,遍歷以后a沒變化,b變成了T.Ramp(0, 1, 4) 這時候lanes=4,會走到第一個if分支,回傳的是新構造的RampNode

 T.Ramp(i * 4, 1, 4)

其他的分支也類似,比如:

A[i * 4 + j] + T.float32(1)
// --- after ---
A[i * 4:i * 4 + 4]   T.float32(1)

這里會把a、b broadcast為一個向量再做計算,

VarNode

對于這里的VarNode判斷就比較簡單了,如果匹配到的是需要向量化的變數,就回傳建構式中構造的RampNode,否則就回傳,其他的操作,暫時略過,

Var var = GetRef<Var>(op);
if (var.same_as(var_)) {
 return ramp_;
}
// ...
else {
 return std::move(var);
}
MulNode
PrimExpr a = this->VisitExpr(op->a);
PrimExpr b = this->VisitExpr(op->b);
if (a.same_as(op->a) && b.same_as(op->b)) {
return GetRef<PrimExpr>(op);
} else {
int lanes = std::max(a.dtype().lanes(), b.dtype().lanes());
if (lanes != 1) {
 const RampNode* b_ramp = b.as<RampNode>();
 const RampNode* a_ramp = a.as<RampNode>();
 if (a_ramp && b.dtype().lanes() == 1 && analyzer_.CanProve(b > 0)) {
   return Ramp(a_ramp->base * b, a_ramp->stride * b, a_ramp->lanes);
 }
 if (b_ramp && a.dtype().lanes() == 1 && analyzer_.CanProve(a > 0)) {
   return Ramp(b_ramp->base * a, b_ramp->stride * a, b_ramp->lanes);
 }
}
return Mul(BroadcastTo(a, lanes), BroadcastTo(b, lanes));
}
return BinaryVec<Mul>(op);

這里的處理邏輯與Add基本一致,只是在計算RampNode的時候有點區別,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555872.html

標籤:其他

上一篇:怎么讓英文大預言模型支持中文?(一)構建自己的tokenization

下一篇:返回列表

標籤雲
其他(161538) Python(38244) JavaScript(25513) Java(18251) C(15238) 區塊鏈(8272) C#(7972) AI(7469) 爪哇(7425) MySQL(7265) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2437) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) HtmlCss(1971) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • TVM 原始碼閱讀PASS — VectorizeLoop

    本文地址:https://www.cnblogs.com/wanger-sjtu/p/17501119.html VectorizeLoop這個PASS就是對標記為`ForKind::kVectorized`的`For`回圈做向量化處理,并對For回圈中的陳述句涉及到的變數,替換為`Ramp`,以便于 ......

    uj5u.com 2023-06-25 07:50:27 more
  • 怎么讓英文大預言模型支持中文?(一)構建自己的tokenization

    代碼地址:https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言 目前,大語言模型呈爆發式的增長,其中,基于llama家族的模型占據了半壁江山。而原始的llama模型對中文的支持不太友好,接下來本文將講解如何去擴充vocab里 ......

    uj5u.com 2023-06-25 07:50:22 more
  • vulnhub靶場搭建

    # vulnhub靶場搭建 ## kali虛擬機安裝 ### 1、更新 sudo apt-get update ![image](https://img2023.cnblogs.com/blog/2988012/202305/2988012-20230519234458164-417900736.p ......

    uj5u.com 2023-06-25 07:49:38 more
  • TVM 原始碼閱讀PASS — VectorizeLoop

    本文地址:https://www.cnblogs.com/wanger-sjtu/p/17501119.html VectorizeLoop這個PASS就是對標記為`ForKind::kVectorized`的`For`回圈做向量化處理,并對For回圈中的陳述句涉及到的變數,替換為`Ramp`,以便于 ......

    uj5u.com 2023-06-25 07:49:23 more
  • 怎么讓英文大預言模型支持中文?(一)構建自己的tokenization

    代碼地址:https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言 目前,大語言模型呈爆發式的增長,其中,基于llama家族的模型占據了半壁江山。而原始的llama模型對中文的支持不太友好,接下來本文將講解如何去擴充vocab里 ......

    uj5u.com 2023-06-25 07:49:18 more
  • 【技識訓累】演算法中的貪心演算法【三】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-25 07:48:47 more
  • AtCoder Beginner Contest 307

    ## [A - Weekly Records (abc307 A)](https://atcoder.jp/contests/abc307/tasks/abc307_a) ### 題目大意 給定$n$周每天的散步量,求每周七天的散步量的和。 ### 解題思路 累計求和即可。 神奇的代碼 ```cpp ......

    uj5u.com 2023-06-25 07:48:42 more
  • 淺談OpenCV的多物件匹配影像的實作,以及如何匹配半透明控制元件,不

    # 淺談OpenCV的多物件匹配透明影像的實作,以及如何匹配半透明控制元件 ### 引子 > 1. OpenCV提供的templateMatch只負責將(相關性等)計算出來,并不會直接提供目標的對應坐標,一般來說我們直接遍歷最高的相關度,就可以得到匹配度最高的坐標。但是這樣一般只能得到一個坐標。 > 2 ......

    uj5u.com 2023-06-25 07:42:42 more
  • C++ 核心指南之資源管理(上)

    C++ 核心指南(C++ Core Guidelines)是由 Bjarne Stroustrup、Herb Sutter 等頂尖 C++ 專家創建的一份 C++ 指南、規則及最佳實踐。旨在幫助大家正確、高效地使用“現代 C++”。 這份指南側重于介面、資源管理、記憶體管理、并發等 High-leve ......

    uj5u.com 2023-06-25 07:42:27 more
  • 空 - 三眼烏鴉

    一款純凈版內網探測工具,解決某些工具內網探測速率慢、服務爆破誤報率高以及socks流量代理出問題且工具落地又被秒的困擾 ......

    uj5u.com 2023-06-25 07:39:45 more