Shell 腳本編程最佳實踐-有解無憂

代碼風格規范

Linux學習
開頭有“蛇棒”

所謂shebang其實就是在很多腳本的第一行出現的以#!開頭的注釋，他指明了當我們沒有指定解釋器的時候默認的解釋器，一般可能是下面這樣：

#!/bin/bash

當然，解釋器有很多種，除了bash之外，我們可以用下面的命令查看本機支持的解釋器:

$ cat /etc/shells#/etc/shells: valid login shells/bin/sh/bin/dash/bin/bash/bin/rbash/usr/bin/screen

當我們直接使用./a.sh來執行這個腳本的時候，如果沒有shebang，那么它就會默認用$SHELL指定的解釋器，否則就會用shebang指定的解釋器，

這種方式是我們推薦的使用方式，

代碼有注釋

注釋，顯然是一個常識，不過這里還是要再強調一下，這個在shell腳本里尤為重要，因為很多單行的shell命令不是那么淺顯易懂，沒有注釋的話在維護起來會讓人尤其的頭大，

注釋的意義不僅在于解釋用途，而在于告訴我們注意事項，就像是一個README，

具體的來說，對于shell腳本，注釋一般包括下面幾個部分：

shebang
腳本的引數
腳本的用途
腳本的注意事項
腳本的寫作時間，作者，著作權等
各個函式前的說明注釋
一些較復雜的單行命令注釋

引數要規范

這一點很重要，當我們的腳本需要接受引數的時候，我們一定要先判斷引數是否合乎規范，并給出合適的回顯，方便使用者了解引數的使用，

最少，最少，我們至少得判斷下引數的個數吧：

if [[ $# != 2 ]];then    echo "Parameter incorrect."    exit 1fi

變數和魔數

一般情況下我們會將一些重要的環境變數定義在開頭，確保這些變數的存在，

source /etc/profileexport PATH=”/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin:/apps/bin/”

這種定義方式有一個很常見的用途，最典型的應用就是，當我們本地安裝了很多java版本時，我們可能需要指定一個java來用，那么這時我們就會在腳本開頭重新定義JAVA_HOME以及PATH變數來進行控制，同時，一段好的代碼通常是不會有很多硬編碼在代碼里的“魔數”的，如果一定要有，通常是用一個變數的形式定義在開頭，然后呼叫的時候直接呼叫這個變數，這樣方便日后的修改，

縮進有規矩

對于shell腳本，縮進是個大問題，因為很多需要縮進的地方(比如if,for陳述句)都不長，所有很多人都懶得去縮進，而且很多人不習慣用函式，導致縮進功能被榷訓，

其實正確的縮進是很重要的，尤其是在寫函式的時候，否則我們在閱讀的時候很容易把函式體跟直接執行的命令搞混，

常見的縮進方法主要有”soft tab”和”hard tab”兩種，

所謂soft tab就是使用n個空格進行縮進(n通常是2或4)
所謂hard tab當然就是指真實的\t字符
這里不去撕哪種方式最好，只能說各有各的優劣，反正我習慣用hard tab，
對于if和for陳述句之類的，我們最好不要把then，do這些關鍵字單獨寫一行，這樣看上去比較丑，，，

命名有標準

所謂命名規范，基本包含下面這幾點：

檔案名規范，以.sh結尾，方便識別
變數名字要有含義，不要拼錯
統一命名風格，寫shell一般用小寫字母加下劃線

編碼要統一

在寫腳本的時候盡量使用UTF-8編碼，能夠支持中文等一些奇奇怪怪的字符，不過雖然能寫中文，但是在寫注釋以及打log的時候還是盡量英文，畢竟很多機器還是沒有直接支持中文的，打出來可能會有亂碼，這里還尤其需要注意一點，就是當我們是在windows下用utf-8編碼來寫shell腳本的時候，一定要注意這個utf-8是否是有BOM的，默認情況下windows判斷utf-8格式是通過在檔案開頭加上三個EF BB BF位元組來判斷的，但是在Linux中默認是無BOM的，因此如果我們是在windows下寫腳本的時候，一定要注意將編碼改成Utf-8無BOM，一般用notepad++之類的編輯器都能改，否則，在Linux下運行的時候就會識別到開頭的三個字符，從而報一些無法識別命令的錯，當然，對于跨平臺寫腳本還有一個比較常見的問題就是換行符不同，windows默認是\r\n而unix下是\n，不過有兩個小工具可以非常方便的解決這個問題：dos2unix,unix2dos，

權限記得加

這一點雖然很小，但是我個人卻經常忘記，不加執行權限會導致無法直接執行，有點討厭，，，

日志和回顯

日志的重要性不必多說，能夠方便我們回頭糾錯，在大型的專案里是非常重要的，

如果這個腳本是供用戶直接在命令列使用的，那么我們最好還要能夠在執行時實時回顯執行程序，方便用戶掌控，

有時候為了提高用戶體驗，我們會在回顯中添加一些特效，比如顏色啊，閃爍啊之類的，具體可以參考ANSI/VT100 Control sequences這篇文章的介紹，

密碼要移除

不要把密碼硬編碼在腳本里，不要把密碼硬編碼在腳本里，不要把密碼硬編碼在腳本里，

重要的事情說三遍，尤其是當腳本托管在類似Github這類平臺中時，，，

太長要分行

在呼叫某些程式的時候，引數可能會很長，這時候為了保證較好的閱讀體驗，我們可以用反斜杠來分行：

./configure \–prefix=/usr \–sbin-path=/usr/sbin/nginx \–conf-path=/etc/nginx/nginx.conf \

注意在反斜杠前有個空格，

編碼細節規范

代碼有效率

在使用命令的時候要了解命令的具體做法，尤其當資料處理量大的時候，要時刻考慮該命令是否會影響效率，

比如下面的兩個sed命令：

sed -n '1p' filesed -n '1p;1q' file

他們的作用一樣，都是獲取檔案的第一行，但是第一條命令會讀取整個檔案，而第二條命令只讀取第一行，當檔案很大的時候，僅僅是這樣一條命令不一樣就會造成巨大的效率差異，

當然，這里只是為了舉一個例子，這個例子真正正確的用法應該是使用head -n1 file命令，，，

勤用雙引號

幾乎所有的大佬都推薦在使用”$”來獲取變數的時候最好加上雙引號，

不加上雙引號在很多情況下都會造成很大的麻煩，為什么呢？舉一個例子：

#!/bin/sh#已知當前檔案夾有一個a.sh的檔案var="*.sh"echo $varecho "$var"

他的運行結果如下：

a.sh*.sh

為啥會這樣呢？其實可以解釋為他執行了下面的命令：

echo *.shecho "*.sh"

在很多情況下，在將變數作為引數的時候，一定要注意上面這一點，仔細體會其中的差異，上面只是一個非常小的例子，實際應用的時候由于這個細節導致的問題實在是太多了，，，

巧用main函式

我們知道，像java，C這樣的編譯型語言都會有一個函式入口，這種結構使得代碼可讀性很強，我們知道哪些直接執行，那些是函式，但是腳本不一樣，腳本屬于解釋性語言，從第一行直接執行到最后一行，如果在這當中命令與函式糅雜在一起，那就非常難讀了，

用python的朋友都知道，一個合乎標準的python腳本大體上至少是這樣的：

#!/usr/bin/env pythondef func1():    passdef func2():    passif __name__=='__main__':    func1()    func2()

他用一個很巧妙的方法實作了我們習慣的main函式，使得代碼可讀性更強，

在shell中，我們也有類似的小技巧:

#!/usr/bin/env bashfunc1(){    #do sth}func2(){    #do sth}main(){    func1    func2}main "$@"

我們可以采用這種寫法，同樣實作類似的main函式，使得腳本的結構化程度更好，

考慮作用域

shell中默認的變數作用域都是全域的，比如下面的腳本：

#!/usr/bin/env bashvar=1func(){    var=2}funcecho $var

他的輸出結果就是2而不是1，這樣顯然不符合我們的編碼習慣，很容易造成一些問題，

因此，相比直接使用全域變數，我們最好使用local readonly這類的命令，其次我們可以使用declare來宣告變數，這些方式都比使用全域方式定義要好，

函式回傳值

在使用函式的時候一定要注意，shell中函式的回傳值只能是整數，估計是因為一般情況下一個函式的回傳值通常表示這個函式的運行狀態，所以一般都是0或者是１就夠了，因此就設計成了這樣，不過，如果非得想傳遞字串，也可以通過下面變通的方法:

func(){    echo "2333"}res=$(func)echo "This is from $res."

這樣，通過echo或者print之類的就可以做到傳一些額外引數的目的，

間接參考值

什么叫間接參考？比如下面這個場景：

VAR1="2323232"VAR2="VAR1"

我們有一個變數VAR1，又有一個變數VAR2，這個VAR2的值是VAR1的名字，那么我們現在想通過VAR2來獲取VAR1的值，這時候應該怎么辦呢？

比較土鱉的方法是這樣：

eval echo \$$VAR2

啥意思呢？其實就是構造了一個字串echo XXX，這個XXX就是XXX”，這個XXX就是VAR2的值VAR1，然后再用eval強制決議，這樣就做到了變相取值，

這個用法的確可行，但是看起來十分的不舒服，很難直觀的去理解，我們并不推薦，而且事實上我們本身就不推薦使用eval這個命令，

比較舒服的寫法是下面這樣:

echo ${!VAR1}

通過在變數名前加一個!就可以做到簡單的間接參考了，

不過需要注意的是，用上面的方法，我們只能夠做到取值，而不能做到賦值，如果想要做到賦值，還要老老實實的用eval來處理:

VAR1=VAR2eval $VAR1=233echo $VAR2

巧用heredocs

所謂heredocs，也可以算是一種多行輸入的方法，即在”<<”后定一個識別符號，接著我們可以輸入多行內容，直到再次遇到識別符號為止，

使用heredocs，我們可以非常方便的生成一些模板檔案：

cat>>/etc/rsyncd.conf << EOFlog file = /usr/local/logs/rsyncd.logtransfer logging = yeslog format = %t %a %m %f %bsyslog facility = local3EOF

學會查路徑

很多情況下，我們會先獲取當前腳本的路徑，然后一這個路徑為基準，去找其他的路徑，通常我們是直接用pwd以期獲得腳本的路徑，

不過其實這樣是不嚴謹的，pwd獲得的是當前shell的執行路徑，而不是當前腳本的執行路徑，

正確的做法應該是下面這兩種：

script_dir=$(cd $(dirname $0) && pwd)script_dir=$(dirname $(readlink -f $0 ))

應當先cd進當前腳本的目錄然后再pwd，或者直接讀取當前腳本的所在路徑，

代碼要簡短

這里的簡短不單單是指代碼長度，而是只用到的命令數，原則上我們應當做到，能一條命令解決的問題絕不用兩條命令解決，這不僅牽涉到代碼的可讀性，而且也關乎代碼的執行效率，

最最經典的例子如下：

cat /etc/passwd | grep rootgrep root /etc/passwd

cat命令最為人不齒的用法就是這樣，用的沒有任何意義，明明一條命令可以解決，他非得加根管道，，，

其實代碼簡短在還能某種程度上能保證效率的提升，比如下面的例子：

#method1find . -name '*.txt' |xargs sed -i s/233/666/gfind . -name '*.txt' |xargs sed -i s/235/626/gfind . -name '*.txt' |xargs sed -i s/333/616/gfind . -name '*.txt' |xargs sed -i s/233/664/g#method1find . -name '*.txt' |xargs sed -i "s/233/666/g;s/235/626/g;s/333/616/g;s/233/664/g"

這兩種方法做的事情都一樣，就是查找所有的.txt后綴的檔案并做一系列替換，前者是多次執行find，后者是執行一次find，但是增加了sed的模式串，第一種更直觀一點，但是當替換的量變大的時候，第二種的速度就會比第一種快很多，這里效率提升的原因，就是第二種只要執行一次命令，而第一種要執行多次，并且，巧用xargs命令，我們還可以十分方便的進行并行化處理:

find . -name '*.txt' |xargs -P $(nproc) sed -i "s/233/666/g;s/235/626/g;s/333/616/g;s/233/664/g"

通過-P引數指定并行度，可以進一步加快執行效率，

命令并行化

當我們需要充分考慮執行效率時，我們可能需要在執行命令的時候考慮并行化，shell中最簡單的并行化是通過”&”以及”wait”命令來做:

func(){    #do sth｝for((i=0;i<10;i++))do    func &donewait

當然，這里并行的次數不能太多，否則機器會卡死，稍微正確的做法比較復雜，以后再討論，如果圖省事可以使用parallel命令來做，或者是用上面提到的xargs來處理，

全文本檢索

我們知道，當我們想在檔案夾下所有的txt檔案中檢索某一個字串(比如233)的時候，我們可能會用類似這樣的命令：

find . -name '*.txt' -type f | xargs grep 2333

很多情況下，這個命令會想我們所想的找到對應的匹配行，但是我們需要注意兩個小問題，

find命令會符合要求的匹配檔案名，但是如果檔案名包含空格，這時候將檔案名傳給grep的時候就會有問題，這個檔案就會被當成兩個引數，這時候就要加一層處理，保證用空格分開的檔案名不會被當成兩個引數：

find . -type f|xargs -i echo '"{}"'|xargs grep 2333

有時候，檔案的字符集可能跟終端的字符集不一致，這時候就會導致grep在搜索時將檔案當成二進制檔案從而報binary file matches之類的問題，這時候要么用iconv之類的字符集轉換工具將字符集進行切換，要么就在不影響查找的情況下對grep加-a引數，將所有檔案看成文本檔案:

find . -type f|xargs grep -a 2333

使用新寫法

這里的新寫法不是指有多厲害，而是指我們可能更希望使用較新引入的一些語法，更多是偏向代碼風格的，比如

盡量使用func(){}來定義函式，而不是func{}

盡量使用[[]]來代替[]

盡量使用$()將命令的結果賦給變數，而不是反引號

在復雜的場景下盡量使用printf代替echo進行回顯

事實上，這些新寫法很多功能都比舊的寫法要強大，用的時候就知道了，

其他小tip

考慮到還有很多零碎的點，就不一一展開了，這里簡單提一提，

路徑盡量保持絕對路徑，絕多路徑不容易出錯，如果非要用相對路徑，最好用./修飾

優先使用bash的變數替換代替awk sed，這樣更加簡短

簡單的if盡量使用&& ||，寫成單行，

比如[[ x > 2]] && echo x

當export變數時，盡量加上子腳本的namespace，保證變數不沖突

會使用trap捕獲信號，并在接受到終止信號時執行一些收尾作業

使用mktemp生成臨時檔案或檔案夾

利用/dev/null過濾不友好的輸出資訊

會利用命令的回傳值判斷命令的執行情況

使用檔案前要判斷檔案是否存在，否則做好例外處理

不要處理ls后的資料(比如ls -l | awk ‘{ print $8 }’)，ls的結果非常不確定，并且平臺有關

讀取檔案時不要使用for loop而要使用while read

使用cp -r命令復制檔案夾的時候要注意如果目的檔案夾不存在則會創建，如果存在則會復制到該檔案的子檔案夾下

靜態檢查工具shellcheck

概述

為了從制度上保證腳本的質量，我們最簡單的想法大概就是搞一個靜態檢查工具，通過引入工具來彌補開發者可能存在的知識盲點，

市面上對于shell的靜態檢查工具還真不多，找來找去就找到一個叫shellcheck的工具，開源在github上，有8K多的star，看上去還是十分靠譜的，我們可以去他的主頁了解具體的安裝和使用資訊，

安裝

這個工具的對不同平臺的支持力度都很大，他至少支持了Debian,Arch,Gentoo,EPEL,Fedora,OS X,openSUSE等等各種的平臺的主流包管理工具，安裝方便，具體可以參照安裝檔案

集成

既然是靜態檢查工具，就一定可以集成在CI框架里，shellcheck可以非常方便的集成在Travis CI中，供以shell腳本為主語言的專案進行靜態檢查，

樣例

在檔案的Gallery of bad code里，也提供了非常詳細的“壞代碼”的標準，具有非常不錯的參考價值，可以在閑下來的時候當成”Java Puzzlers“之類的書來讀讀還是很愜意的，

以上就是良許教程網為各位朋友分享的Shell 腳本編程最佳實踐，

本文由博客一文多發平臺 OpenWrite 發布！

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/252411.html

標籤：其他

上一篇：Linux服務器高并發調優實操

下一篇：Linux常用命令全稱