博客反抄襲作業的一些思考和嘗試-有解無憂

近日開始著手反抄襲作業，做了一些思考和嘗試，

現狀與動機

目前看，比較明顯，容易判定的抄襲行為，主要包括:

直接完整復制，雖然容易被識破，但是因為成本低，甚至有些抄襲者使用爬蟲進行大量搬運，
洗稿，主要是打亂句子和段落順序，使其看起來是另一篇正常的文章，但是其實是比較簡單的改頭換面，句子仍然都是抄襲而來，
洗稿，但是更為深入，對句子也做了大量修改，這種洗稿較難識別，甚至與一些正常的討論、筆記等文章有一定的模糊地帶，但是這種方式作業量大，多?于社會新聞、時評熱稿等高價值文章的抄襲行為，
剪刀黨，可能剪裁自多篇文章，并非簡單抄襲和復制某一篇文章，
部分抄襲，對于技術文章，有部分抄襲行為是圍繞源頭的核心內容，例如代碼進行搬運，并重寫文字部分，這種行為的判定可以參考科技論文對抄襲的判定，大量不正規參考，或者未做清晰標識的參考，仍然是抄襲，
在CSDN，抄襲的主要動機是建立自己的個人影響力，故抄襲的產出主要仍然是可以閱讀的文章，反抄襲是一個與抄襲者?期對抗的程序，隨著檢查手段的發展，抄襲行為也會演化，反抄襲是一個復雜工程，需要多方面的努力，

思考

反抄襲，必然從查重入手，那么第一個反應是利用既有的搜索技術，實作匹配查找，但是搜索與查重的目標不同，其著重點也不同，直接使用效果并不好，假陽性比例會非常高，

資料庫專家周正中老師介紹過關于相似 HASH 的運用，這種策略可以有效對抗簡單復制的抄襲著，但是對于洗稿行為就不太有效，抄襲者只需要簡單的增加一些無關緊要的文字，就可以使相似Hash失效，

相對來說，通常的抄襲行為仍然會保持句子的原貌，因此構造一個對句子高度敏感的查重演算法，作為整個反抄襲作業的起點，是一個可行的思路，

參考自然語言處理作業中的詞袋概念，我們可以構造一個“句袋”系統，將每一篇文章按句子切分，然后在整個句庫中查找匹配的句子，

目前梳理的主要步驟包含

- 將既有文章按句切分，在資料庫中保存所有句子的指紋和相關特征
- 建立指紋主要是為了引入行之有效的資料庫索引，所以很多種散列演算法都可以用在這里，為了簡單，我們可以先選用md5，雖然在密碼管理等領域，md5已經不是一個非常好的選擇，但是在這種句袋模型里，它仍然夠用
- 在指紋列上建立一個高度壓縮，有利于快速匹配的索引，目前使用的是 PostgreSQL 的 bloom 索引，
- 保存每個句子的文章 id，便于查詢時找到被抄襲的文章，這個欄位要允許同一個句子出現在多篇文章，PostgreSQL JSONB 非常適用，
- 記錄每個句子出現在多少篇文章中，這種計數經常在NLP中被稱作頻率，但是我們在寫入資料庫，和查詢計算的時候僅需計數，PostgreSQL 的 upsert 支持可以很好的完成這個作業
因為具體的業務原因，同一篇文章可能出現在我們的資料集中多次，因此寫入時要有去重機制，最終我通過 insert on conflicit do update where 形式的寫入查詢，實作了這個冪等寫入邏輯
搜索時，我們同樣要構造文章句袋，然后生成句子的指紋集合，再從資料庫中做一個 where fingerprint = ANY(:fingerprints) 查詢，
理想狀態下正常的文章應該不會有重用的句子，但是敘述性或抒情文字，甚至一些科技內容，例如數學定理，確實可能出現在多篇文章，因此要設定重復句的閾值，包括最低計數和在句袋中的占比，超過閾值才會觸發判定，
與詞頻類似，頻率越低的句子，越能表現文章特征，在查重時如果匹配多篇文章，應按照頻率由低向高排列，
基于關系型資料庫構造句庫，可以有效的滿足句庫本身的持續增?需要，

挑戰

在開發程序中，我也發現了一些問題，

目前粗糙的開發測驗來看，統計上句庫表的行數大概與文章數目有兩個數量級的差距，故要有分庫分表的預案
PostgreSQL 要求表的主鍵必須是 Btree索引，否則我可以直接將 fingerprint 作為主鍵
大規模資料集的查詢效果，仍有待驗證，目前的一個挑戰是開發盡可能快速的寫入腳本——為了與整個NLP組的業務規則保持一致，我們盡可能重用既有的 Python代碼，那么如何提速成為了一個不大不小的挑戰，在將來反抄襲系統可能會引入一些更快的技術工具
- 目前看分句仍然是一個問題，簡單的基于標點符號的斷句演算法，對技術文章仍有一些不夠用的情況，這可能是一個需要持續改進的作業，并且反抄襲對文章的句子提取要求，與推薦等 NLP 作業存在一些不同，
- 單一的句庫模型并不能處理所有的抄襲情況，反抄襲工具開發是一個?期的持續程序，
- 反抄襲永遠需要熱情的用戶和有責任心的團隊密切合作

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/297365.html

標籤：其他

上一篇：MySQL必須掌握的技能有哪些？超細長文帶你掌握MySQL【建議收藏】

下一篇：衛星互聯網路由技術現狀及展望