沒想到吧？這貨比 open 更適合讀取檔案-有解無憂

使用 open 函式去讀取檔案，似乎是所有 Python 工程師的共識，

今天明哥要給大家推薦一個比 open 更好用、更優雅的讀取檔案方法 -- 使用 fileinput

fileinput 是 Python 的內置模塊，但我相信，不少人對它都是陌生的，今天我把 fileinput 的所有的用法、功能進行詳細的講解，并列舉了一些非常實用的案例，對于理解和使用它可以說完全沒有問題，

1. 從標準輸入中讀取

當你的 Python 腳本沒有傳入任何引數時，fileinput 默認會以 stdin 作為輸入源

# demo.py
import fileinput

for line in fileinput.input():
    print(line)

效果如下，不管你輸入什么，程式會自動讀取并再列印一次，像個復讀機似的，

$ python demo.py 
hello
hello

python
python

2. 單獨打開一個檔案

腳本的內容如下

import fileinput

with fileinput.input(files=('a.txt',)) as file:
    for line in file:
        print(f'{fileinput.filename()} 第{fileinput.lineno()}行: {line}', end='')

其中 a.txt 的內容如下

hello
world

執行后就會輸出如下

$ python demo.py
a.txt 第1行: hello
a.txt 第2行: world

需要說明的一點是，fileinput.input() 默認使用 mode='r' 的模式讀取檔案，如果你的檔案是二進制的，可以使用mode='rb' 模式，fileinput 有且僅有這兩種讀取模式，

3. 批量打開多個檔案

從上面的例子也可以看到，我在 fileinput.input 函式中傳入了 files 引數，它接收一個包含多個檔案名的串列或元組，傳入一個就是讀取一個檔案，傳入多件就是讀取多個檔案，

import fileinput

with fileinput.input(files=('a.txt', 'b.txt')) as file:
    for line in file:
        print(f'{fileinput.filename()} 第{fileinput.lineno()}行: {line}', end='')

a.txt 和 b.txt 的內容分別是

$ cat a.txt
hello
world
$ cat b.txt
hello
python

運行后輸出結果如下，由于 a.txt 和 b.txt 的內容被整合成一個檔案物件 file ，因此 fileinput.lineno() 只有在讀取一個檔案時，才是原檔案中真實的行號，

$ python demo.py
a.txt 第1行: hello
a.txt 第2行: world
b.txt 第3行: hello
b.txt 第4行: python

如果想要在讀取多個檔案的時候，也能讀取原檔案的真實行號，可以使用 fileinput.filelineno() 方法

import fileinput

with fileinput.input(files=('a.txt', 'b.txt')) as file:
    for line in file:
        print(f'{fileinput.filename()} 第{fileinput.filelineno()}行: {line}', end='')

運行后，輸出如下

$ python demo.py
a.txt 第1行: hello
a.txt 第2行: world
b.txt 第1行: hello
b.txt 第2行: python

這個用法和 glob 模塊簡直是絕配

import fileinput
import glob
 
for line in fileinput.input(glob.glob("*.txt")):
    if fileinput.isfirstline():
        print('-'*20, f'Reading {fileinput.filename()}...', '-'*20)
    print(str(fileinput.lineno()) + ': ' + line.upper(), end="")

運行效果如下

$ python demo.py
-------------------- Reading b.txt... --------------------
1: HELLO
2: PYTHON
-------------------- Reading a.txt... --------------------
3: HELLO
4: WORLD

4. 讀取的同時備份檔案

fileinput.input 有一個 backup 引數，你可以指定備份的后綴名，比如 .bak

import fileinput


with fileinput.input(files=("a.txt",), backup=".bak") as file:
    for line in file:
        print(f'{fileinput.filename()} 第{fileinput.lineno()}行: {line}', end='')

運行的結果如下，會多出一個 a.txt.bak 檔案

$ ls -l a.txt*
-rw-r--r--  1 MING  staff  12  2 27 10:43 a.txt

$ python demo.py
a.txt 第1行: hello
a.txt 第2行: world

$ ls -l a.txt*
-rw-r--r--  1 MING  staff  12  2 27 10:43 a.txt
-rw-r--r--  1 MING  staff  42  2 27 10:39 a.txt.bak

5. 標準輸出重定向替換

fileinput.input 有一個 inplace 引數，表示是否將標準輸出的結果寫回檔案，默認不取代

請看如下一段測驗代碼

import fileinput

with fileinput.input(files=("a.txt",), inplace=True) as file:
    print("[INFO] task is started...") 
    for line in file:
        print(f'{fileinput.filename()} 第{fileinput.lineno()}行: {line}', end='') 
    print("[INFO] task is closed...")

運行后，會發現在 for 回圈體內的 print 內容會寫回到原檔案中了，而在 for 回圈體外的 print 則沒有變化，

$ cat a.txt
hello
world

$ python demo.py
[INFO] task is started...
[INFO] task is closed...

$ cat a.txt 
a.txt 第1行: hello
a.txt 第2行: world

利用這個機制，可以很容易的實作文本替換，

import sys
import fileinput

for line in fileinput.input(files=('a.txt', ), inplace=True):
    #將Windows/DOS格式下的文本檔案轉為Linux的檔案
    if line[-2:] == "\r\n":  
        line = line + "\n"
    sys.stdout.write(line)

附：如何實作 DOS 和 UNIX 格式互換以供程式測驗，使用 vim 輸入如下指令即可

DOS轉UNIX：:setfileformat=unix
UNIX轉DOS：:setfileformat=dos

6. 不得不介紹的方法

如果只是想要 fileinput 當做是替代 open 讀取檔案的工具，那么以上的內容足以滿足你的要求，

fileinput.filenam()
回傳當前被讀取的檔案名，在第一行被讀取之前，回傳 None，
fileinput.fileno()
回傳以整數表示的當前檔案“檔案描述符”，當未打開檔案時（處在第一行和檔案之間），回傳 -1，
fileinput.lineno()
回傳已被讀取的累計行號，在第一行被讀取之前，回傳 0，在最后一個檔案的最后一行被讀取之后，回傳該行的行號，
fileinput.filelineno()
回傳當前檔案中的行號，在第一行被讀取之前，回傳 0，在最后一個檔案的最后一行被讀取之后，回傳此檔案中該行的行號，

但若要想基于 fileinput 來做一些更加復雜的邏輯，也許你會需要用到如下這幾個方法

fileinput.isfirstline()
如果剛讀取的行是其所在檔案的第一行則回傳 True，否則回傳 False，
fileinput.isstdin()
如果最后讀取的行來自 sys.stdin 則回傳 True，否則回傳 False，
fileinput.nextfile()
關閉當前檔案以使下次迭代將從下一個檔案（如果存在）讀取第一行；不是從該檔案讀取的行將不會被計入累計行數，直到下一個檔案的第一行被讀取之后檔案名才會改變，在第一行被讀取之前，此函式將不會生效；它不能被用來跳過第一個檔案，在最后一個檔案的最后一行被讀取之后，此函式將不再生效，
fileinput.close()
關閉序列，

7. 進階一點的玩法

在 fileinput.input() 中有一個 openhook 的引數，它支持用戶傳入自定義的物件讀取方法，

若你沒有傳入任何的勾子，fileinput 默認使用的是 open 函式，

fileinput 為我們內置了兩種勾子供你使用

fileinput.hook_compressed(*filename*, *mode*)

使用 gzip 和 bz2 模塊透明地打開 gzip 和 bzip2 壓縮的檔案（通過擴展名 '.gz' 和 '.bz2' 來識別），如果檔案擴展名不是 '.gz' 或 '.bz2'，檔案會以正常方式打開（即使用 open() 并且不帶任何解壓操作），使用示例: fi = fileinput.FileInput(openhook=fileinput.hook_compressed)
fileinput.hook_encoded(*encoding*, *errors=None*)

回傳一個通過 open() 打開每個檔案的鉤子，使用給定的 encoding 和 errors 來讀取檔案，使用示例: fi = fileinput.FileInput(openhook=fileinput.hook_encoded("utf-8", "surrogateescape"))

如果你自己的場景比較特殊，以上的三種勾子都不能滿足你的要求，你也可以自定義，

這邊我舉個例子來拋磚引玉下

假如我想要使用 fileinput 來讀取網路上的檔案，可以這樣定義勾子，

先使用 requests 下載檔案到本地
再使用 open 去讀取它

def online_open(url, mode):
    import requests
    r = requests.get(url) 
    filename = url.split("/")[-1]
    with open(filename,'w') as f1:
        f1.write(r.content.decode("utf-8"))
    f2 = open(filename,'r')
    return f2

直接將這個函式傳給 openhoos 即可

import fileinput

file_url = 'https://www.csdn.net/robots.txt'
with fileinput.input(files=(file_url,), openhook=online_open) as file:
    for line in file:
        print(line, end="")

運行后按預期一樣將 CSDN 的 robots 的檔案列印了出來

User-agent: * 
Disallow: /scripts 
Disallow: /public 
Disallow: /css/ 
Disallow: /images/ 
Disallow: /content/ 
Disallow: /ui/ 
Disallow: /js/ 
Disallow: /scripts/ 
Disallow: /article_preview.html* 
Disallow: /tag/
Disallow: /*?*
Disallow: /link/

Sitemap: https://www.csdn.net/sitemap-aggpage-index.xml
Sitemap: https://www.csdn.net/article/sitemap.txt

8. 列舉一些實用案例

案例一：讀取一個檔案所有行

import fileinput
for line in fileinput.input('data.txt'):
  print(line, end="")

案例二：讀取多個檔案所有行

import fileinput
import glob
 
for line in fileinput.input(glob.glob("*.txt")):
    if fileinput.isfirstline():
        print('-'*20, f'Reading {fileinput.filename()}...', '-'*20)
    print(str(fileinput.lineno()) + ': ' + line.upper(), end="")

案例三：利用fileinput將CRLF檔案轉為LF

import sys
import fileinput

for line in fileinput.input(files=('a.txt', ), inplace=True):
    #將Windows/DOS格式下的文本檔案轉為Linux的檔案
    if line[-2:] == "\r\n":  
        line = line + "\n"
    sys.stdout.write(line)

案例四：配合 re 做日志分析：取所有含日期的行


#--樣本檔案--：error.log
aaa
1970-01-01 13:45:30  Error: **** Due to System Disk spacke not enough...
bbb
1970-01-02 10:20:30  Error: **** Due to System Out of Memory...
ccc
 
#---測驗腳本---
import re
import fileinput
import sys
 
pattern = '\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}'
 
for line in fileinput.input('error.log',backup='.bak',inplace=1):
    if re.search(pattern,line):
        sys.stdout.write("=> ")
        sys.stdout.write(line)
 
#---測驗結果---
=> 1970-01-01 13:45:30  Error: **** Due to System Disk spacke not enough...
=> 1970-01-02 10:20:30  Error: **** Due to System Out of Memory...

案例五：利用fileinput實作類似于grep的功能

import sys
import re
import fileinput
 
pattern= re.compile(sys.argv[1])
for line in fileinput.input(sys.argv[2]):
    if pattern.match(line):
        print(fileinput.filename(), fileinput.filelineno(), line)
$ ./test.py import.*re *.py
#查找所有py檔案中，含import re字樣的
addressBook.py  2   import re
addressBook1.py 10  import re
addressBook2.py 18  import re
test.py         238 import re

9. 寫在最后

fileinput 是對 open 函式的再次封裝，在僅需讀取資料的場景中， fileinput 顯然比 open 做得更專業、更人性，當然在其他有寫操作的復雜場景中，fileinput 就無能為力啦，本身從 fileinput 的命名上就知道這個模塊只專注于輸入（讀）而不是輸出（寫），

文章最后給大家介紹兩個我自己寫的在線檔案：

第一個檔案：PyCharm 中文指南 1.0 檔案

整理了 100 個 PyCharm 的使用技巧，為了讓新手能夠直接上手，我花了很多的時間錄制了上百張 GIF 動圖，有興趣的前往在線檔案閱讀，

第二個檔案：PyCharm 黑魔法指南 1.0 檔案

系統收錄各種 Python 冷門知識，Python Shell 的多樣玩法，令人瘋狂的 Python 炫技操作，Python 的超詳細進階知識解讀，非常實用的 Python 開發技巧等，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/265279.html

標籤：Python

上一篇：測驗成長記錄：python調adb無法獲取設備資訊bug記錄

下一篇：Python提取PDF表格及文本！（附原始碼）