我有一份OCR文本檔案,其中的段落被分成了單獨的行。我想把它們重新變成單行的完整段落(按照原始 PDF)。
我如何使用 regex 或查找和替換來洗掉兩行文本之間的換行符,并將其替換為一個空格?
例如。 每行文本都有一個換行符。我想讓它們成為單行的整段文字。
Lorem ipsum dolor sit amet, consectetur adipiscing elit. 南方的車輛告訴我們,我們的結果是什么?
刮刮樂。在這里,我想說的是,我們要做的是把我們的作業做好。在這里,你可以自由地選擇你所需要的元素。
迅速地,在這里,你會發現你的生命力在不斷地增長。在這里,我想說的是,在這里,我們可以看到,在這里,我們可以看到,在這里,我們可以看到,在這里,我們可以看到。在這里,我想說的是:"在這里,你可以看到你的朋友。
吸引了很多人的注意力,但也有很多人不知道該怎么辦。優秀的人是不可能的,他們是在為他們的孩子做準備。
tortor magna rutrum nulla, vel ullamcorper mi purus a diam. 在這一點上,我們可以看到,在我們的生活中,有很多人都在為我們的生活而努力。
在這里,我想說的是,我們要做的就是把我們的作業做好。
在這里,我想說的是:"在這里,我們要做的就是把我們的作業做得更好。
在這里,我們可以看到,在這里,我們可以看到,在這里,我們可以看到,在這里,我們可以看到,在這里,我們可以看到。南方不允許有任何障礙。暫時性的拱形結構,非商品化的連接物。
仔細觀察。在這里,我想說的是,我們要做的是,我們要做的是,我們要做的是,我們要做的是,我們要做的是,我們要做的是,我們要做的是。在這里,你可以看到,你的生命力在這里。
不需要任何東西就可以了。在這里,我們可以看到,在我們的生活中,有很多東西都是我們所需要的。優秀的人
在這里,你可以看到你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友,你的朋友。
的概念。在這里,你可以看到你的朋友們,你的朋友們,你的朋友們,你的朋友們。
uj5u.com熱心網友回復:
你可能在為每一個新產生的掃描尋找一種程式化/動態的方法,所以我不確定這是否回答了你的問題,但由于你的標簽中有visual studio的代碼,我將回答如何在vscode中做這個。
從File > Preferences > Keyboard shortcuts中打開鍵盤快捷鍵,并將editor.action.joinLines系結到您選擇的快捷鍵,例如Ctrl J。
然后繼續前進,在 vscode 中打開你想要修復的文本,選擇它并按下該鍵系結。你會注意到所有的東西都會在1行中。我希望我有所幫助!
uj5u.com熱心網友回復:當從OCR文本中移除破折號時,我正在使用兩個正則運算式。 它們可以在VS Code的Find&Replace對話框中使用。
- 洗掉以連字符結尾的行的斷行符。
(?<=w)- * * - 用空格替換剩余的換行符,但保留空行。
(?<! ) * *(?! ).
注意,正則運算式中的 *修剪了行末和行首的空白。
還有一個基于Flair的Python工具,名為dehyphen,可以完成這個作業。 根據我的經驗,它可以產生有用的結果,但與用正則運算式替換破折號相比,可能需要相當長的時間。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/307558.html
標籤:
上一篇:如何獲得平衡括號組的內容
下一篇:多行鉸鏈,帶看頭
