在linux中使用awk或sed決議簡單字串-有解無憂

原始字串：
A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/

目錄的深度會有所不同，但 /trunk 部分將始終保持不變。/trunk 前面的單個字符是該行的指示符。

所需的輸出：

A /trunk/apple
B /trunk/apple
Z /trunk/orange
Q /trunk/melon/juice/venti/straw

*** 編輯
對不起，我犯了一個錯誤，在原始字串的每個路徑的末尾添加了一個斜杠，這使輸出變得混亂。原始字串在大寫字母前沒有斜線，但我會保留它。

我的嘗試：

echo $str1 | sed 's/$.\/trunk$/\n\1/g'

我覺得它應該作業，但它沒有。

uj5u.com熱心網友回復：

使用用于多字符 RS 和 RT 的 GNU awk：

$ awk -v RS='([^/] /){2}[^/\n] ' 'RT{sub("/",OFS,RT); print RT}' file
A trunk/apple
B trunk/apple
Z trunk/orange

我正在設定RS一個正則運算式來描述您要匹配的每個字串，即 2 次非/s重復，/然后是最后一個非/s字串（輸入行上最后一個字串的非換行符）。RT自動設定為每個匹配的字串，所以我只需將第/一個更改為空白并列印結果。

如果每條路徑并不總是 3 層深，但總是以開頭something/trunk/，例如：

$ cat file
A/trunk/apple/banana/B/trunk/apple/Z/trunk/orange

然后：

$ awk -v RS='[^/] /trunk/' 'RT{if (NR>1) print pfx $0; pfx=gensub("/"," ",1,RT)} END{printf "%s%s", pfx, $0}' file
A trunk/apple/banana/
B trunk/apple/
Z trunk/orange

uj5u.com熱心網友回復：

要處理復雜的樣本輸入，例如在/一行中可能有 N 個中繼后的值，請嘗試以下操作。

awk '
{
  gsub(/[^/]*\/trunk/,OFS"&")
  sub(/^ /,"")
  sub(/\//,OFS"&")
  gsub(/  [^/]*\/trunk\/[^[:space:]] /,"\n&")
  sub(/\n/,OFS)
  gsub(/\n /,ORS)
  gsub(/\/trunk/,OFS"&")
  sub(/[[:space:]] /,OFS)
}
1
'  Input_file

說明：為以上添加詳細說明。

awk '                                            ##Starting awk program from here.
{
  gsub(/[^/]*\/trunk/,OFS"&")                    ##Globally substituting everything from / to till next / followed by trunk/ with space and matched value.
  sub(/^ /,"")                                   ##Substituting starting space with NULL here.
  sub(/\//,OFS"&")                               ##Substituting first / with space / here.
  gsub(/  [^/]*\/trunk\/[^[:space:]] /,"\n&")    ##Globally substituting spaces followed by everything till / trunk till space comes with new line and matched values.
  sub(/\n/,OFS)                                  ##Substituting new line with space.
  gsub(/\n /,ORS)                                ##Globally substituting new line space with ORS.
  gsub(/\/trunk/,OFS"&")                         ##Globally substituting /trunk with OFS and matched value.
  sub(/[[:space:]] /,OFS)                        ##Substituting spaces with OFS here.
}
1                                                ##Printing edited/non-edited line here.
'  Input_file                                    ##Mentioning Input_file name here.

使用您顯示的示例，請嘗試以下awk代碼。

awk '{gsub(/\/trunk/,OFS "&");gsub(/trunk\/[^/]*\//,"&\n")} 1' Input_file

uj5u.com熱心網友回復：

在awk你可以試試這個解決方案。它處理下一個字符為大寫時洗掉正斜杠的特殊要求。不會贏得設計獎，但會起作用。

$ echo "A/trunk/apple/B/trunk/apple/Z/trunk/orange" | 
    awk -F '' '{ x=""; for(i=1;i<=NF;i  ){ 
      if($(i 1)~/[A-Z]/&&$i=="/"){$i=""}; 
      if($i~/[A-Z]/){ printf x""$i" "}
      else{ x="\n"; printf $i } }; print "" }'
A /trunk/apple
B /trunk/apple
Z /trunk/orange

也適用于 n 個單詞。實際上適用于任何遵循給定模式的東西。

$ echo "A/fruits/apple/mango/B/anything/apple/pear/banana/Z/ball/orange/anything" | 
    awk -F '' '{ x=""; for(i=1;i<=NF;i  ){
      if($(i 1)~/[A-Z]/&&$i=="/"){$i=""};
      if($i~/[A-Z]/){ printf x""$i" "}
      else{ x="\n"; printf $i } }; print "" }'
A /fruits/apple/mango
B /anything/apple/pear/banana
Z /ball/orange/anything

uj5u.com熱心網友回復：

這可能對你有用（GNU sed）：

sed 's/[^/]*/& /;s/\//\n/3;P;D' file

/用空格將第一個單詞與第一個單詞分開。

用/換行符替換第三個。

列印/洗掉第一行并重復。

如果第一個單詞具有它只有一個字符長的屬性：

sed 's/./& /;s#/\(./\)#\n\1#;P;D' file

或者，如果第一個單詞具有以大寫字符開頭的屬性：

sed 's/[[:upper:]][^/]*/& /;s#/\([[:upper:][^/]*/\)#\n\1#;P;D' file

或者，如果第一個單詞具有其后跟的屬性/trunk/：

sed -E 's#([^/]*)(/trunk/)#\n\1 \2#g;s/.//' file

uj5u.com熱心網友回復：

使用 GNU sed：

$ str="A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/"
$ sed -E 's|/?(.)(/trunk/)|\n\1 \2|g;s|/$||' <<< "$str"

A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

注意第一個空輸出行。如果不需要我們可以將第一條輸出行的處理分開：

$ sed -E 's|(.)|\1 |;s|/(.)(/trunk/)|\n\1 \2|g;s|/$||' <<< "$str"
A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

uj5u.com熱心網友回復：

使用gnu awk您可以使用 FPAT 使用模式設定每個欄位的內容。

當回圈中的欄位，替換第一個/用 /

str1="A/trunk/apple/B/trunk/apple/Z/trunk/orange"

echo $str1 | awk -v FPAT='[^/] /trunk/[^/] ' '{    
for(i=1;i<=NF;i  ) {
    sub("/", " /", $i)
    print $i
    }
}'

模式匹配

[^/] 匹配任何字符，除了 /
/trunk/[^/] 匹配/trunk/和任何字符除外/

輸出

A  /trunk/apple
B  /trunk/apple
Z  /trunk/orange

更新問題后 FPAT 可以使用的其他模式：

匹配單詞邊界\\<和大寫字符 AZ 以及后/trunk重復/和小寫字符

FPAT='\\<[A-Z]/trunk(/[a-z] )*'

如果后面目錄的字串長度/trunk至少為 2 個字符：

FPAT='\\<[A-Z]/trunk(/[^/]{2,})*'

如果不能有由單個大寫字符 AZ 組成的單獨檔案夾

FPAT='\\<[A-Z]/trunk(/([^/A-Z][^/]*|[^/]{2,}))*'

輸出

A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

uj5u.com熱心網友回復：

假設您的資料始終采用作為單個字串提供的格式，您可以試試這個sed。

$ sed 's/$/\//;s|\([A-Z]\)\([a-z/]*\)/\([a-z]*\?\)|\1 \2\3\n|g' input_file

$ echo "A/trunk/apple/pine/skunk/B/trunk/runk/bunk/apple/Z/trunk/orange/T/fruits/apple/mango/P/anything/apple/pear/banana/L/ball/orange/anything/S/fruits/apple/mango/B/rupert/cream/travel/scout/H/tall/mountains/pottery/barnes" | sed 's/$/\//;s|\([A-Z]\)\([a-z/]*\)/\([a-z]*\?\)|\1 \2\3\n|g'
A /trunk/apple/pine/skunk
B /trunk/runk/bunk/apple
Z /trunk/orange
T /fruits/apple/mango
P /anything/apple/pear/banana
L /ball/orange/anything
S /fruits/apple/mango
B /rupert/cream/travel/scout
H /tall/mountains/pottery/barnes

uj5u.com熱心網友回復：

perl 的一些樂趣，您可以在其中使用非消耗正則運算式自動拆分為@F陣列，然后只需列印即可。

perl -lanF'/(?=.{1,2}trunk)/' -e 'print "$F[2*$_] $F[2*$_ 1]" for 0..$#F/2'

第 1 步：拆分

perl -lanF/(?=.{1,2}trunk)/'
這將獲取輸入流，并在.{1,2}trunk遇到模式時拆分每一行
因為我們想要保留trunk前面的 1 或 2 個字符，所以我們將拆分模式包裝在中以(?=)進行非消耗性前瞻
這以這種方式拆分：

$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e 'print join " ", @F'
A /trunk/apple/ B /trunk/apple/ Z /trunk/orange/citrus/ Q /trunk/melon/juice/venti/straw/

第 2 步：格式化輸出：

該@F陣列包含我們要按順序列印的對，因此我們將迭代一半的陣列索引，并一次列印 2：
print "$F[2*$_] $F[2*$_ 1]" for 0..$#F/2 --> 將迭代器加倍，并列印對
usingperl -l意味著每個人在最后print都有一個隱含\n的
結果：

$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e 'print "$F[2*$_] $F[2*$_ 1]" for 0..$#F/ 2'
一個/樹干/蘋果/
B /樹干/蘋果/
Z /樹干/橙色/柑橘/
Q /trunk/melon/juice/venti/straw/

尾注：Perl 混淆無效。

perl 中的任何陣列都可以轉換為散列，格式為 (key,val,key,val....)
所以%F=@F; print "$_ $F{$_}" for keys %F看起來它真的很光滑
但是你失去了秩序：

$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e '%F=@F; 為鍵 %F' 列印“$_ $F{$_}”
Z /樹干/橙色/柑橘/
一個/樹干/蘋果/
Q /trunk/melon/juice/venti/straw/
B /樹干/蘋果/

uj5u.com熱心網友回復：

更新

使用您的新資料檔案：

$ cat file
A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/

這個GNUawk解決方案：

awk '
{
sub(/[/]$/,"")
gsub(/[[:upper:]]{1}/,"& ")
print gensub(/([/])([[:upper:]])/,"\n\\2","g")
}' file
A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/364381.html

標籤：解析 awk sed

上一篇：用設定的字串替換檔案中的固定位置

下一篇：將dfa轉換為星號大小寫的規則