比較多個檔案中的特定列并列印匹配的特定列-有解無憂

我有多個 csv 格式的檔案（六個檔案）。我試圖在多個檔案中比較 $3、$4、$5，如果匹配，則從所有檔案中列印 $6 以及檔案 1 中的 $2、$3、$4、$5 列。

輸入檔案 1：

Blink,Seeddensity(g/cm^3),1_0002,VU10,37586764,0.458533399568206
Blink,Seeddensity(g/cm^3),1_0004,VU08,37687622,0.548181169267479
Blink,Seeddensity(g/cm^3),1_0006,VU02,6629660,0.553099787284982

輸入檔案2：

Farmcpu,Seeddensity(g/cm^3),1_0002,VU10,37586764,0.907010463957269
Farmcpu,Seeddensity(g/cm^3),1_0004,VU08,37687622,0.782521980037194
Farmcpu,Seeddensity(g/cm^3),1_0006,VU02,6629660,0.589126094555234

輸入檔案 3：

GLM,Seeddensity(g/cm^3),1_0002,VU10,37586764,0.24089
GLM,Seeddensity(g/cm^3),1_0004,VU08,37687622,0.25771
GLM,Seeddensity(g/cm^3),1_0006,VU02,6629660,0.31282

期望的輸出：

Trait   Marker  Chr Pos Blink   Farmcpu GLM
Seeddensity(g/cm^3) 2_27144 VU08    36984438    1.7853934213866E-11 0.907010463957269   0.24089
Seeddensity(g/cm^3) 2_13819 VU08    21705264    3.98653459293212E-09    0.782521980037194   0.25771
Seeddensity(g/cm^3) 2_07286 VU01    38953729    3.16663946775461E-07    0.589126094555234   0.31282

我已經檢查了多個 awk 命令，但這是在兩個檔案中最接近的一個：

awk 'NR==FNR{ a[$2,$3,$4,$5]=$1; next } { s=SUBSEP; k=$2 s $3 s $4 s $5 }k in a{ print $0,a[k] }' File1 File2 > output

join <(sort File1) <(sort File2) | join - <(sort File3) | join - <(sort File4) | join - <(sort File5) | join - <(sort File6) > output

我相信 join 不起作用，因為第一列在檔案中不一樣，所以我嘗試了這個命令：

join -t, -j3 -o 1.2,1.3,1.4,1.5,1.6,2.6,3.6,4.6,5.6,6.6 <(sort -k 3 File1) <(sort -k 3 File2) <(sort -k 3 File3) <(sort -k 3 File4) <(sort -k 3 File5) <(sort -k 3 File6) > output

但我收到一個錯誤訊息：加入：欄位規范中的無效檔案號：'3.6'

對于兩個檔案，以下命令有效，但我不確定如何將它用于多個檔案：

join -t, -j3 -o 1.2,1.3,1.4,1.5,1.6,2.6 <(sort -k 3 File1) <(sort -k 3 File2) > output

uj5u.com熱心網友回復：

假設您確實需要 CSV 輸出，然后將 GNU awk 用于 ARGIND：

$ cat tst.awk
BEGIN { FS=OFS="," }
{ key = $3 FS $4 FS $5 }
ARGIND < (ARGC-1) {
    val[key,ARGIND] = $6
    next
}
{
    sfx = ""
    for (i=1; i<ARGIND; i  ) {
        if ( (key,i) in val ) {
            sfx = sfx OFS val[key,i]
        }
        else {
            next
        }
    }
    print $2, $3, $4, $5, $6 sfx
}

$ awk -f tst.awk file2 file3 file1
Seeddensity(g/cm^3),1_0002,VU10,37586764,0.458533399568206,0.907010463957269,0.24089
Seeddensity(g/cm^3),1_0004,VU08,37687622,0.548181169267479,0.782521980037194,0.25771
Seeddensity(g/cm^3),1_0006,VU02,6629660,0.553099787284982,0.589126094555234,0.31282

對于任何其他 awk，只需FNR==1 { ARGIND }在腳本開頭添加一行即可。

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/365530.html

標籤：加入 awk

上一篇：SQLJOIN只回傳第一個匹配項

下一篇：Oracle-用來自另一個表的連接替換資料透視列的空值