虛假新聞的興起迫使擁有社交媒體帳戶的每個人都成為一名偵探,負責在發布前確定帖子是否真實,但是,虛假新聞仍然會越過我們的防線,在網路上迅速擴散,由于用戶的無知和粗心而加劇,正如NBC新聞報道所顯示的那樣,假新聞不僅會散布恐懼和虛假資訊,而且還可能對公司和個人的聲譽造成損害,為了減少錯誤資訊的直接和間接損失,我們需要更好的方法來檢測虛假新聞,盡管有些虛假新聞是由真實的人撰寫的,并且簡直像是小說,但利用深度學習模型也可以大量生成虛假新聞,從而加劇了這一問題,到目前為止,計算機生成的文本已經很容易與真人寫作的文本區分開,但是,由于自然語言生成模型的巨大改進,計算機生成的文本現在比以往任何時候都更加可信,因此這個問題變得更加緊迫,

在過去的三年中,Transformer(變形器)席卷了自然語言處理任務, 像幾年前最先進的長期短期記憶體系結構這樣的神經網路已經被BERT(來自變形器的雙向編碼器表示)和OpenAI強大的新模型GPT-2(生成預訓練的變形器2)超越了 , 這些變形器現在以準確的分類和聽起來不錯的生成文本引領行業, 舉例來說,由GPT-2生成的文本是如此真實,以至于OpenAI最初拒絕發布完整的受訓模型,理由是“對技術和程式的惡意應用的擔憂”,
區分真實和虛假新聞很重要,但要解決一個難題,而對于新模型,這個問題變得更加困難, 該專案旨在探索假新聞產生和發現方面的挑戰,
專案目標
- 通過比較長期短期記憶(LSTM)殘差神經網路和OpenAI的最新變形器GPT-2生成的文本,簡要演示自然語言生成模型的改進,
- 使用區分符嘗試準確分類文本是由最新的深度學習模型還是由人生成,
專案概況
該專案分為以上兩個主要部分, 第二部分-查找,訓練和使用判別器對生成的文本進行分類-這將是一項重大挑戰,因為計算機生成的文本已經變得很難與人類書寫的區分開,
首先,對許多模型進行了研究和評估, 通常選擇預訓練的模型版本,因為它們無需進行數天的訓練即可實作最新性能, 使用Kaggle資料集的子集對LSTM模型進行了微調, 用于微調的資料由《紐約時報》,《布賴特巴特》,CNN,《商業內幕》,《大西洋》,《福克斯新聞》,《談話要點備忘錄》,《 Buzzfeed新聞》,《國家評論》,《紐約郵報》,《衛報》,NPR,路透社 ,Vox和《華盛頓郵報》提供, 根據Kaggle上的檔案,大多數文章來自2016年和2017年,而較少的文章來自2015年及之前, OpenAI在GPT-2的檔案中寫道,它在針對特定內容的任務上表現良好,例如生成偽造的新聞,而無需進行微調或重新訓練,因此專案使用了GPT-2的原始權重,
為了檢測假新聞,從真實新聞文章中傳遞了GPT-2模型的種子, 從該種子中,模型生成長格式的文本,最多可包含500多個令牌(可以將標記視為單詞和標點符號,),結果,對于每篇“真實”文章,都有一個生成的長格式文本,它們共享一個共同的第一句, 使用稱為GLTR的工具,通過比較它們的功能來檢查每個生成的文本和真實文章, 最后,將所有文章分為訓練和測驗集,并訓練了BERT二進制分類器以對“偽造”文本進行分類,
全部內容請訪問原文地址:https://imba.deephub.ai/p/066ca2d0793211ea90cd05de3860c663

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/38969.html
標籤:其他
