主頁 > 作業系統 > linux三劍客(grep、sed、awk)基本使用

linux三劍客(grep、sed、awk)基本使用

2022-06-24 01:45:41 作業系統

鏡像下載、域名決議、時間同步請點擊 阿里云開源鏡像站

準備

作為一個經常在服務器上游走的后端,需要熟悉不少命令列操作,其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個實體演示下基本用法,首先準備一個文本檔案,命名為text.txt,內容如下:

cat text.txt
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

grep

首先,最簡單的是grep,經常用來過濾查看日志,對于grep需要知道如下幾個常用的命令選項:

-n

額外輸出行號,例如過濾出每一行包含"青"的記錄:

grep -n "青" text.txt                                                                                              
1:1     province    省份  青海省
3:3     subject_no  主體備案號   青ICP備11000289號
4:4     addr    注冊地址    青海省西寧市城中區南關街138號
7:7     site_no 網站備案/許可證號   青ICP備11000289號-2

-v

排除匹配的行,例如排除包含"青"的行記錄:

grep -v '青' text.txt                                                                                              
2     domain  域名或者ip  tianfengyinlou.cn
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

-E

支持擴展正則匹配,grep的時候,我們可以按照正則運算式來進行匹配,但在需要擴展正則匹配時,要通過-E指定才能生效,常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結果的,

grep -E '青海省|青ICP' text.txt                                                                                    
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

-l

只輸出有匹配行的檔案名,有時候,我們并不需要輸出匹配的行記錄,僅僅只是需要知道匹配到了行記錄的檔案名:

grep -l 青 text.txt                                                                                         
text.txt

-R

遞回匹配目錄中的檔案內容,有時候,在一個目錄中我們并不知道哪個檔案內容包含我們想要的結果,此時,可以查找整個目錄,輸出匹配的檔案名以及行記錄:

grep -R 青海 ./DevMisc
# ... 
./DevMisc/linux三劍客.md:1     province     省份                   青海省
./DevMisc/linux三劍客.md:4     addr         注冊地址                青海省西寧市城中區南關街138號
./DevMisc/text.txt:1     province    省份  青海省
./DevMisc/text.txt:4     addr    注冊地址    青海省西寧市城中區南關街138號

結合-l引數就可以知道一個目錄中有哪些檔案包含了匹配項:

grep -Rl 青 ./DevMisc                                                                                                  
./DevMisc/linux三劍客.md
./DevMisc/text.txt

-A

通過-A(after)指定輸出匹配行后的額外行數,例如,想要額外輸出包含"青"的行記錄后一行,可以指定-A1:

grep -A1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
--
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
--
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

-B

通過-B(before)指定輸出匹配行前的額外行數,例如,想要額外輸出包含"青"的行記錄前一行,可以指定-B1:

grep -B1 青 text.txt                                                                                               
1     province    省份  青海省
--
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
--
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2

-C

通過-C指定輸出匹配行前后的額外行數,例如,想要額外輸出包含"青"的行記錄前后各一行,可以指定-C1:

grep -C1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
--
--
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
--
--
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

sed

查找

sed的各項操作需要指定一個特定的動作,查找需要指定一個動作為p(print),例如,列印出第三行的記錄,需要指定行號加動作3p:

sed -n 3p text.txt 
3     subject_no  主體備案號   青ICP備11000289號

這里必須指定一個選項-n,因為sed的默認行為是遍歷文本檔案的每一行并輸出每一行,假如不帶-n選項,第三行會輸出兩次=默認輸出一次+命令列指定輸出一次:

sed 3p text.txt
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

所以-n的作用是取消sed的默認輸出行為, 一般都只與p組合使用,利用sed的默認輸出行為,我們可以模擬復制每一行的操作,有時候在特定場景下非常有用:

sed p text.txt
1     province    省份  青海省
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區南關街138號
4     addr    注冊地址   青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed不僅可以輸出指定的某一行,還可以按行號范圍進行輸出,例如輸出1-5行:

sed -n 1,5p text.txt                                                                                           
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00

sed還可以按照正則匹配來輸出特定的行,格式為/xx/p, 例如,查找包含"青海省"的行記錄:

sed -n '/青海省/p' text.txt                                                                                 
1     province    省份  青海省
4     addr    注冊地址    青海省西寧市城中區南關街138號

查找包含數字0到6的行記錄:

sed -n '/[0-6]/p' text.txt                                                                                         
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2

查找以0結尾的行記錄:

sed -n '/0$/p' text.txt                                                                                           
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00

如果想要支持擴展正則匹配,需要通過-r來指定,例如查找每一行包含"青海省"或者"青"的記錄:

sed -nr '/青海省|青/p' text.txt                                                                                   
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

sed正則匹配也支持按范圍輸出,格式為/xx/,/xx/p,例如查找包含"domain"的行到包含"addr"的行記錄:

sed -n '/domain/,/addr/p' text.txt
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號

洗掉

# 洗掉第三行
sed 3d text.txt                                                                                                    
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 洗掉包含青的行
sed '/青/d' text.txt                                                                                               
2     domain  域名或者ip  tianfengyinlou.cn
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 更改text.txt
cat text.txt                                                                                                       ysj@yangsj2-knownsec
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn

3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
#5     check_time  備案時間, 時間物件  2011-06-23 16:38:00

#6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 洗掉空行和注釋行
sed -r '/^$|#/d' text.txt                                                                                          
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

增加

sed的增加動作有三種:

  • i:在指定行的上方增加一行
  • a: 在指定行的下方增加一行
  • c: 在指定行的地方增加一行,原有行會被覆寫

上述三種增加行為示例為:

注意:示例的增加行為在mac上會報錯,可能在mac上用法不一致,

# 在第3行上方增加一行記錄
sed '3i insert oneline above 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
insert oneline above 3rd line
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行下方增加一行記錄
sed '3a insert oneline after 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
insert oneline after 3rd line
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行創建一行記錄,原記錄被替換
sed '3c create oneline at 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
create oneline at 3rd line
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

修改

上述所有的操作輸出均沒有改變檔案自身的內容,想要使得操作改變檔案自身的內容,需要指定選項-i,指定-i的操作需要格外小心,

例如,在檔案中第一行插入一行記錄:

sed -i '1i add oneline above first line' text.txt
cat text.txt 
add oneline above first line
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed的洗掉動作為d(delete),例如洗掉檔案中的第一行:

# 洗掉增加的第一行
sed -i 1d text.txt 
cat text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

當然,我們也有辦法做安全的洗掉操作,即將-i換成-i.bak 可以在真實改動檔案內容前,備份檔案,但是這個操作一般不適合應用在大檔案上,因為備份很慢,

# 洗掉第一行并備份
sed -i.bak 1d text.txt 
cat text.txt
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
cat text.txt.bak 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

替換

sed可以對檔案內容進行替換(substitute),格式為使用任意三個相同的符號,如三個斜線s/xx/yy/g、三個#號s#xx#yy#g、三個@符號s@xx@yy@g等,效果是將xx替換為yy,

這里的符號選擇是任意的,可以是三個1,三個2都行,常用的是上述三種,因為和檔案內容重合度最小,具體使用哪種,需要根據檔案內容選擇,如果檔案內容本身包含了/,則不方便使用三個斜線來操作,

# 將"青" 替換為"蜀"
sed 's/青/蜀/g' text.txt                                                                                           
1     province    省份  蜀海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    注冊地址    蜀海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   蜀ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 將第三行的青替換為蜀
sed '3s/青/蜀/g' text.txt                                                                                          
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 把所有數字替換為x
sed -r 's/[0-9]/x/g' text.txt                                                                                      
x     province    省份  青海省
x     domain  域名或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備xxxxxxxx號
x     addr    注冊地址    青海省西寧市城中區南關街xxx號
x     check_time  備案時間, 時間物件  xxxx-xx-xx xx:xx:xx
x     update_time 更新時間, 毫秒級時間戳    xxxxxxxxxxxxx
x     site_no 網站備案/許可證號   青ICP備xxxxxxxx號-x
x     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

g是全域(gloabal)替換的意思,如果不要g,則只會替換匹配到的第一項:

# 把每一行的第一個數字替換為x
sed -r 's/[0-9]/x/' text.txt                                                                                      
x     province    省份  青海省
x     domain  域名或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備11000289號
x     addr    注冊地址    青海省西寧市城中區南關街138號
x     check_time  備案時間, 時間物件  2011-06-23 16:38:00
x     update_time 更新時間, 毫秒級時間戳    1607414120745
x     site_no 網站備案/許可證號   青ICP備11000289號-2
x     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

反向參考

反向參考就是利用正則的組匹配來以組為單位進行替換,

# 例如匹配所有的英文詞句([a-z_.]+),然后把他們用<>括起來, \1表示第一組,這里只有一個組匹配
sed -r 's/([a-z_.]+)/<\1>/g' text.txt                                                                              
1     <province>    省份  青海省
2     <domain>  域名或者<ip>  <tianfengyinlou.cn>
3     <subject_no>  主體備案號   青ICP備11000289號
4     <addr>    注冊地址    青海省西寧市城中區南關街138號
5     <check_time>  備案時間, 時間物件  2011-06-23 16:38:00
6     <update_time> 更新時間, 毫秒級時間戳    1607414120745
7     <site_no> 網站備案/許可證號   青ICP備11000289號-2
8     <site_url>    站點/網站首頁網址   <www.tianfengyinlou.cn>
9     <comp_name>   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

awk

取行

awk可以通過NR(Number of Record) 指定行號,輸出特定的行:

# 輸出第三行
awk 'NR==3' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號

也可以按行號范圍輸出:

# 輸出第三到第六行
awk 'NR==3, NR==6' text.txt                                                                                        
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745

# 也可以通過比較指定輸出范圍
# 輸出3到4行
awk 'NR>=3 && NR<5' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號

第二個NR如果是個無效的行號值,則默認取出指定起始行之后所有的行記錄:

# 輸出第三行之后的所有行
awk 'NR==3, NR==xx' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
5     check_time  備案時間, 時間物件  2011-06-23 16:38:00
6     update_time 更新時間, 毫秒級時間戳    1607414120745
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

取行操作依然支持正則匹配:

# 輸出包含青的行
awk '/青/' text.txt                                                                                                
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

# 輸出以"號"結尾的行
awk '/號$/' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號

# 輸出包含domain到包含addr的行
awk '/domain/, /addr/' text.txt                                                                                    
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號

取列

awk可以使用{print $列號} 取出列值:

# 例如,取出第二列的值
awk '{print $2}' text.txt                                                                                      
province
domain
subject_no
addr
check_time
update_time
site_no
site_url
comp_name

# 取出第2列及最后一列NF(Number of Fields)的值
awk '{print $2,$NF}' text.txt                                                                                      
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司

# 使用column -t 對齊輸出
awk '{print $2,$NF}' text.txt | column -t                                                                          
province     青海省
domain       tianfengyinlou.cn
subject_no   青ICP備11000289號
addr         青海省西寧市城中區南關街138號
check_time   16:38:00
update_time  1607414120745
site_no      青ICP備11000289號-2
site_url     www.tianfengyinlou.cn
comp_name    西寧天豐銀樓金銀珠寶有限公司

awk取列時,默認是空格為分隔符,可以通過-F指定分隔符,例如,第7-8行:

awk "NR==7,NR==8" text.txt                                                                                         
7     site_no 網站備案/許可證號   青ICP備11000289號-2
8     site_url    站點/網站首頁網址   www.tianfengyinlou.cn

取出第7、8行后,按/進行劃分,取出劃分后的第二列:

awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'                                                                  
許可證號   青ICP備11000289號-2
網站首頁網址   www.tianfengyinlou.cn

-F 可以通過[]正則指定多個分隔符:

# 按空格和/ 進行分隔, 取出1到4列
awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'                                                   
7 site_no 網站備案 許可證號
8 site_url 站點 網站首頁網址

精確取行列

awk可以精確取出某一行某一列的值,一些用例如:

# ~ 表示包含, !~ 表示不包含
# 取出第四列包含"青"的行
awk '$4 ~ /青/' text.txt                                                                                       
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區南關街138號
7     site_no 網站備案/許可證號   青ICP備11000289號-2

# 取出第四列以"號"結尾的行,并輸出最后一列
awk '$4 ~ /號$/{print $NF}' text.txt                                                                               
青ICP備11000289號
青海省西寧市城中區南關街138號

# 取出第2列以d開始,到第四列以號結尾的行記錄
awk '$2 ~ /^d/, $4 ~/號$/' text.txt                                                                                
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號

BEGIN

awk可以使用BEGIN在操作檔案內容前執行一些命令:

# 列如輸出表頭
awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t                            
序號  名稱          含義                   示例
1     province     省份                   青海省
2     domain       域名或者ip              tianfengyinlou.cn
3     subject_no   主體備案號              青ICP備11000289號
4     addr         注冊地址                青海省西寧市城中區南關街138號
5     check_time   備案時間,               時間物件
6     update_time  更新時間,               毫秒級時間戳
7     site_no      網站備案/許可證號        青ICP備11000289號-2
8     site_url     站點/網站首頁網址        www.tianfengyinlou.cn
9     comp_name    主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

END

awk可以使用END在操作檔案內容后執行一些命令:

# 通常用于做統計, 例如對第一列求和
awk '{sum+=$1} END{print sum}' text.txt                                                                            
45

使用小結

  • grep、sed、awk都可以過濾行記錄,但過濾行記錄時優先選擇grep,其過濾行的效率最高,
  • sed主要用于對檔案內容做出各種修改(增加、替換等),
  • awk主要用于對檔案內容取行列操作,

本文轉自:https://juejin.cn/post/7100556924524953614

轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/494941.html

標籤:其他

上一篇:將PHP變數從HTML表單傳遞到Javascript

下一篇:在ansible中包含帶有專案值的變數名

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • CA和證書

    1、在 CentOS7 中使用 gpg 創建 RSA 非對稱密鑰對 gpg --gen-key #Centos上生成公鑰/密鑰對(存放在家目錄.gnupg/) 2、將 CentOS7 匯出的公鑰,拷貝到 CentOS8 中,在 CentOS8 中使用 CentOS7 的公鑰加密一個檔案 gpg -a ......

    uj5u.com 2020-09-10 00:09:53 more
  • Kubernetes K8S之資源控制器Job和CronJob詳解

    Kubernetes的資源控制器Job和CronJob詳解與示例 ......

    uj5u.com 2020-09-10 00:10:45 more
  • VMware下安裝CentOS

    VMware下安裝CentOS 一、軟硬體準備 1 Centos鏡像準備 1.1 CentOS鏡像下載地址 下載地址 1.2 CentOS鏡像下載程序 點擊下載地址進入如下圖的網站,選擇需要下載的版本,這里選擇的是Centos8,點擊如圖所示。 決定選擇Centos8后,選擇想要的鏡像源進行下載,此 ......

    uj5u.com 2020-09-10 00:12:10 more
  • 如何使用Grep命令查找多個字串

    如何使用Grep 命令查找多個字串 大家好,我是良許! 今天向大家介紹一個非常有用的技巧,那就是使用 grep 命令查找多個字串。 簡單介紹一下,grep 命令可以理解為是一個功能強大的命令列工具,可以用它在一個或多個輸入檔案中搜索與正則運算式相匹配的文本,然后再將每個匹配的文本用標準輸出的格式 ......

    uj5u.com 2020-09-10 00:12:28 more
  • git配置http代理

    git配置http代理 經常遇到克隆 github 慢的問題,這里記錄一下幾種配置 git 代理的方法,解決 clone github 過慢。 目錄 git配置代理 git單獨配置github代理 git配置全域代理 配置終端環境變數 git配置代理 主要使用 git config 命令 git單獨 ......

    uj5u.com 2020-09-10 00:12:33 more
  • Linux npm install 裝包時提示Error EACCES permission denied解

    npm install 裝包時提示Error EACCES permission denied解決辦法 ......

    uj5u.com 2020-09-10 00:12:53 more
  • Centos 7下安裝nginx,使用yum install nginx,提示沒有可用的軟體包

    Centos 7下安裝nginx,使用yum install nginx,提示沒有可用的軟體包。 18 (flaskApi) [root@67 flaskDemo]# yum -y install nginx 19 已加載插件:fastestmirror, langpacks 20 Loading ......

    uj5u.com 2020-09-10 00:13:13 more
  • Linux查看服務器暴力破解ssh IP

    在公網的服務器上經常遇到別人爆破你服務器的22埠,用來挖礦或者干其他嘿嘿嘿的事情~ 這種情況下正確的做法是: 修改默認ssh的22埠 使用設定密鑰登錄或者白名單ip登錄 建議服務器密碼為復雜密碼 創建普通用戶登錄服務器(root權限過大) 建立堡壘機,實作統一管理服務器 統計爆破IP [root ......

    uj5u.com 2020-09-10 00:13:17 more
  • CentOS 7系統常見快捷鍵操作方式

    Linux系統中一些常見的快捷方式,可有效提高操作效率,在某些時刻也能避免操作失誤帶來的問題。 ......

    uj5u.com 2020-09-10 00:13:31 more
  • CentOS 7作業系統目錄結構介紹

    作業系統存在著大量的資料檔案資訊,相應檔案資訊會存在于系統相應目錄中,為了更好的管理資料資訊,會將系統進行一些目錄規劃,不同目錄存放不同的資源。 ......

    uj5u.com 2020-09-10 00:13:35 more
最新发布
  • vim的常用命令

    Vim的6種基本模式 1. 普通模式在普通模式中,用的編輯器命令,比如移動游標,洗掉文本等等。這也是Vim啟動后的默認模式。這正好和許多新用戶期待的操作方式相反(大多數編輯器默認模式為插入模式)。 2. 插入模式在這個模式中,大多數按鍵都會向文本緩沖中插入文本。大多數新用戶希望文本編輯器編輯程序中一 ......

    uj5u.com 2023-04-20 08:43:21 more
  • vim的常用命令

    Vim的6種基本模式 1. 普通模式在普通模式中,用的編輯器命令,比如移動游標,洗掉文本等等。這也是Vim啟動后的默認模式。這正好和許多新用戶期待的操作方式相反(大多數編輯器默認模式為插入模式)。 2. 插入模式在這個模式中,大多數按鍵都會向文本緩沖中插入文本。大多數新用戶希望文本編輯器編輯程序中一 ......

    uj5u.com 2023-04-20 08:42:36 more
  • docker學習

    ###Docker概述 真實專案部署環境可能非常復雜,傳統發布專案一個只需要一個jar包,運行環境需要單獨部署。而通過Docker可將jar包和相關環境(如jdk,redis,Hadoop...)等打包到docker鏡像里,將鏡像發布到Docker倉庫,部署時下載發布的鏡像,直接運行發布的鏡像即可。 ......

    uj5u.com 2023-04-19 09:26:53 more
  • 設定Windows主機的瀏覽器為wls2的默認瀏覽器

    這里以Chrome為例。 1. 準備作業 wsl是可以使用Windows主機上安裝的exe程式,出于安全考慮,默認情況下改功能是無法使用。要使用的話,終端需要以管理員權限啟動。 我這里以Windows Terminal為例,介紹如何默認使用管理員權限打開終端,具體操作如下圖所示: 2. 操作 wsl ......

    uj5u.com 2023-04-19 09:25:49 more
  • docker學習

    ###Docker概述 真實專案部署環境可能非常復雜,傳統發布專案一個只需要一個jar包,運行環境需要單獨部署。而通過Docker可將jar包和相關環境(如jdk,redis,Hadoop...)等打包到docker鏡像里,將鏡像發布到Docker倉庫,部署時下載發布的鏡像,直接運行發布的鏡像即可。 ......

    uj5u.com 2023-04-19 09:19:04 more
  • Linux學習筆記

    IP地址和主機名 IP地址 ifconfig可以用來查詢本機的IP地址,如果不能使用,可以通過install net-tools安裝。 Centos系統下ens33表示主網卡;inet后表示IP地址;lo表示本地回環網卡; 127.0.0.1表示代指本機;0.0.0.0可以用于代指本機,同時在放行設 ......

    uj5u.com 2023-04-18 06:52:01 more
  • 解決linux系統的kdump服務無法啟動的問題

    問題:專案麒麟系統服務器的kdump服務無法啟動,沒有相關日志無法定位問題。 1、查看服務狀態是關閉的,重啟系統也無法啟動 systemctl status kdump 2、修改grub引數,修改“crashkernel”為“512M(有的機器數值太大太小都會導致報錯,建議從128M開始試,或者加個 ......

    uj5u.com 2023-04-12 09:59:50 more
  • 解決linux系統的kdump服務無法啟動的問題

    問題:專案麒麟系統服務器的kdump服務無法啟動,沒有相關日志無法定位問題。 1、查看服務狀態是關閉的,重啟系統也無法啟動 systemctl status kdump 2、修改grub引數,修改“crashkernel”為“512M(有的機器數值太大太小都會導致報錯,建議從128M開始試,或者加個 ......

    uj5u.com 2023-04-12 09:59:01 more
  • 你是不是暴露了?

    作者:袁首京 原創文章,轉載時請保留此宣告,并給出原文連接。 如果您是計算機相關從業人員,那么應該經歷不止一次網路安全專項檢查了,你肯定是收到過資訊系統技術檢測報告,要求你加強風險監測,確保你提供的系統服務堅實可靠了。 沒檢測到問題還好,檢測到問題的話,有些處理起來還是挺麻煩的,尤其是線上正在運行的 ......

    uj5u.com 2023-04-05 16:52:56 more
  • 細節拉滿,80 張圖帶你一步一步推演 slab 記憶體池的設計與實作

    1. 前文回顧 在之前的幾篇記憶體管理系列文章中,筆者帶大家從宏觀角度完整地梳理了一遍 Linux 記憶體分配的整個鏈路,本文的主題依然是記憶體分配,這一次我們會從微觀的角度來探秘一下 Linux 內核中用于零散小記憶體塊分配的記憶體池 —— slab 分配器。 在本小節中,筆者還是按照以往的風格先帶大家簡單 ......

    uj5u.com 2023-04-05 16:44:11 more