從stdin流過濾大量由行號指定的行數 -有解無憂

我有一個巨大的xz壓縮文本檔案huge.txt.xz，其中有數百萬行，它太大，無法保持未壓縮的狀態（60GB）。

我想從這個巨大的文本檔案中快速過濾/選擇大量的行（約1000行）到一個檔案filtered.txt。例如，要選擇的行數可以在一個單獨的文本檔案select.txt中指定，格式如下：

總的來說，我設想了一個如下的shell命令，其中 "待定 "是我要找的命令：

。

xz -dcq huge.txt.xz | "TO BE DETERMINED" select.txt > filtered.txt

我設法從一個密切相關的問題中找到了一個awk程式，它幾乎可以完成這項作業 - 唯一的問題是它需要一個檔案名，而不是從stdin讀取。不幸的是，我并不真正了解awk腳本，也不了解足夠的awk來改變它在這種情況下的作業方式。

這就是現在的作業，缺點是有一個60GB的檔案躺在那里，而不是流媒體：

這就是現在的作業。

xz -dcq huge.txt.xz > huge.txt
awk '！firstfile_proceed { nums[1]; next } 
         (FNR in nums)' select.txt firstfile_proceed=1 > filtered.txt

靈感。https://unix.stackexchange.com/questions/612680/remove-lines-with-specific-line-number-specified-in-a-file

uj5u.com熱心網友回復：

與OP目前的想法保持一致：

xz -dcq huge.txt.xz | awk '！firstfile_proceed { nums[1]; next } (FNR in nums)' select.txt firstfile_proceed=1 -

這里的-(在行尾)告訴awk從stdin中讀取(在這個例子中是來自xz的輸出，它被輸送到awk呼叫)。

另一種方法可以做到這一點（取代上述所有的代碼）：

awk '
FNR==NR { nums[1]; next }             # 處理第一個檔案
FNR in nums # 處理后續檔案
' select.txt <(xz -dcq huge.txt.xz)

評論已被洗掉，并被削減為一個 "單行本"：

awk 'FNR==NR {nums[$1];next} FNR in nums. FNR in nums' select.txt < (xz -dcq huge.txt.xz)

添加一些邏輯來實作Ed Morton的評論（一旦FNR > 來自select.txt的最大值就退出處理）：

awk '
# 處理第一個檔案

FNR==NR { nums[1美元]
               maxFNR= (1>maxFNR ? 1 : maxFNR)
               下一個
             }

# 處理隨后的檔案。

FNR > maxFNR { 退出 }
FNR in nums
' select.txt < (xz -dcq huge.txt.xz)

注釋：

記住，我們正在談論掃描數百萬行的輸入......
FNR > maxFNR顯然會在整個操作中增加一些cpu/處理時間（盡管比FNR in nums的時間要少）
如果操作經常需要從，比如說，檔案的最后25%中提取行，那么FNR > maxFNR可能會提供很少的好處(并且可能會減慢操作)
如果該操作經常在例如檔案的前50%中找到所有需要的行，那么FNR> maxFNR可能值得花費cpu/處理時間來避免掃描整個輸入流（然后，在整個檔案上的xz操作可能是最大的時間消耗）
凈結果：額外的NFR > maxFNR測驗可能會加快/減慢整個程序，這取決于在一個典型的運行中需要處理多少輸入流；OP將需要運行一些測驗，看看整體運行時間是否有（明顯的）差異

uj5u.com熱心網友回復：

如果你有一個行號檔案，在每個行號的末尾添加p，并作為一個sed腳本運行。

如果linelist包含

那么 sed 's/$/p/' linelist > selector創建

那么

$: for n in {1. 1500}; do echo $n; done| sed -nf selector
10
14
1499

我沒有發送足夠的行數來匹配15858，所以那一行沒有列印出來。

這與從檔案中解壓的效果相同。

$: tar xOzf x.tgz | sed -nf selector
10
14
1499

uj5u.com熱心網友回復：

為了澄清我之前的評論。我將展示一個簡單的可重復的樣本：

linelist

為了澄清我之前的評論。

linelist內容：

為了模擬一個長的輸入，我將使用seq -w 100000000。

將sed方案與我的建議相比較，我們有：

#!/bin/bash

時間 (
    sed 's/$/p/' linelist > selector
    seq -w 100000000 | sed -nf selector
)
時間 (
    sort -n linelist | sed '$! {s/$/p/};$s/$/{p;q}/' > my_selector
    seq -w 100000000 | sed -nf my_selector
)

輸出：

0000010
000000014
000001499
000015858

真實 1m23.375s
用戶 1m38.004s
sys 0m1.337s
000000010
000000014
000001499
000015858

real 0m0.013s
用戶 0m0.014s
sys 0m0.002s

將我的解決方案與awk進行比較：

#!/bin/bash

時間 (
    awk '
# 處理第一個檔案

FNR==NR { nums[1美元]
               maxFNR= (1>maxFNR ? 1 : maxFNR)
               下一個
             }

# 處理隨后的檔案。

FNR > maxFNR { 退出 }
FNR in nums
' linelist <(seq -w 100000000)
)

時間 (
    sort -n linelist | sed '$! {s/$/p/};$s/$/{p;q}/' > my_selector
    sed -nf my_selector < (seq -w 100000000)
)

輸出：

0000010
000000014
000001499
000015858

真實 0m0.023s
用戶 0m0.020s
sys 0m0.001s
000000010
000000014
000001499
000015858

real 0m0.017s
用戶 0m0.007s
sys 0m0.001s

在我的結論中，使用q的seq與awk解決方案相當。對于可讀性和可維護性，我更喜歡awk解決方案。

無論如何，這個測驗是簡單的，只對小范圍的比較有用。我不知道，例如，如果我對真正的壓縮檔案進行測驗，結果會是什么，因為有大量的磁盤 I/O。

Ed Morton 的編輯：

任何導致所有輸出值小于一秒的速度測驗都是一個糟糕的測驗，因為：

一般來說，沒有人關心X的運行時間是0.1秒還是0.2秒，它們都足夠快，除非是在一個大的回圈中呼叫，并且

像快取這樣的東西會影響結果，而且

。

通常情況下，在執行速度不重要的小輸入集上運行較快的腳本，在執行速度重要的大輸入集上會運行較慢（例如，如果在小輸入集上運行較慢的腳本花時間設定資料結構，從而使其在大輸入集上運行較快）

上述例子的問題在于，它只是試圖列印4行，而不是OP所說的必須選擇的1000行，所以它沒有行使sed和awk解決方案之間的差異，導致sed解決方案比awk解決方案慢得多，即sed解決方案必須為每一行輸入測驗每個目標行號，而awk解決方案只是對當前行進行一次哈希查詢。這是在輸入檔案的每一行上進行的 order(N) vs order(1) 的演算法。

這里有一個更好的例子，顯示了從一個1000000行的檔案中列印每100行（即將選擇1000行），而不是從任何大小的檔案中只列印4行：

。

$ cat tst_awk.sh
#!/usr/bin/env bash

n=1000000
m=100
awk -v n="$n" -v m="$m 'BEGIN{for (i=1; i<=n; i =m) print i}' > linelist

seq "$n"|
    awk '
        FNR==NR {
            nums[1美元]
            maxFNR = 1美元
            下一個
        }
        FNR在nums中 {
            列印
            if ( FNR == maxFNR ) {
                退出
            }
        }
    ' linelist -

$ cat tst_sed.sh
#!/usr/bin/env bash

n=1000000
m=100
awk -v n="$n" -v m="$m 'BEGIN{for (i=1; i<=n; i =m) print i}' > linelist

sed '$！{s/$/p/}；$s/$/{p；q}/' linelist > my_selector
seq "$n" !
    sed -nf my_selector

$ time ./tst_awk.sh > ou.awk

real 0m0.376s
用戶 0m0.311s
sys 0m0.061s

$ time ./tst_sed.sh > ou.sed

真實 0m33.757s
用戶 0m33.576s
sys 0m0.045s

正如你所看到的，awk方案比sed方案快了2個數量級，而且它們產生了相同的輸出：

。

$ diff ou.awk ou.sed
$

如果我把輸入檔案變大，并通過設定從其中選擇10,000行：

n=10000000
m=1000

在每個腳本中，這可能是越來越現實的OPs使用，差異變得非常令人印象深刻：

在每個腳本中，這可能是越來越現實的OPs使用，差異變得非常令人印象深刻。

$ time ./tst_awk.sh > ou.awk

real 0m2.474s
用戶 0m2.843s
sys 0m0.122s

$ time ./tst_sed.sh > ou.sed

real 5m31.539s
用戶 5m31.669s
sys 0m0.183s

即awk在2.5秒內運行，而sed需要5.5分鐘！

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/318118.html

標籤：

上一篇：Jenkinsbuildforandroidsdk問題安裝以下SDK組件失敗。

下一篇：如何在SHELLSCRIPT中比較檔案名