By 超神經
內容提要:到了臘月二十九、三十,家家戶戶都要開始貼春聯了,今年,各種 AI 寫春聯應用都紛紛上線,幫大家寫春聯,要試試嗎?
關鍵詞:AI 寫春聯 NLP
春節接近尾聲,你是否還沉浸在年味里?
到臘月二十九、三十,家家戶戶貼上了 紅紅的春聯,春節就正式拉開了序幕,
春聯也稱為「對聯」、「門對」、「楹聯」,是漢語所獨有的一種藝術形式,有著悠久的歷史,2005 年,中國國務院把楹聯習俗,列為第一批國家非物質文化遺產名錄,
對聯對聯,講究的就是「成對」,要對仗工整,平仄協調,不過現代人的對對聯技能,已經遠不如古代的文人墨客,甚至有時候可能連上下聯都傻傻分不清楚,而聰明的 AI 已經學會自己寫對聯了,
70 萬條對聯資料,教會 AI 對對子
在現有公開的對聯資料集中,以馮重樸_梨味齋散葉_的博客所發布的 couplet-dataset 資料最為龐大、使用也最為廣泛,
左右滑動查看資料集節選內容
前兩張分別為訓練集的上聯和下聯
后兩張分別為測驗集的上聯和下聯
這份資料集共包含 70 余萬條對聯資料,按字切分,
資料集分為訓練集、測驗集以及詞匯表,
其中,如上圖節選內容所示,訓練集分輸入、輸出兩部分,分別為對聯的上聯與下聯,按次序一一對應,測驗集同理,
資料集詳細資訊如下:
couplet-dataset
對聯資料集
資料來源:馮重樸_梨味齋散葉
包含數量:70 萬條對聯
資料格式:.txt
資料大小:59.7 MB(壓縮檔案 27.4 MB)
地址:https://hyper.ai/datasets/14547
這個資料集已經成為對聯資料中的「團寵」,被眾多 AI 工程師、團隊用來作為寫對聯模型的訓練資料集,華為的樂府春聯亦是用該資料集訓練而來,可通過以上地址或點擊閱讀原文,下載該資料集,不過有一個小小的遺憾是,這一資料集中沒有橫批,還需要各位自己發揮,
AI:沒有我對不出來的對聯
一位名叫王斌的程式員,爬取和使用該對聯資料集,用 GTX 1080 Ti 訓練了 4 天,得到了一個自動對對聯模型,效果如何?我們來測驗一下,
左右滑動查看更多
測驗地址:https://ai.binwang.me/couplet/
這位程式員還將該專案在 GitHub 開源:
https://github.com/wb14123/couplet-dataset
另外一位工程師,則基于 GPT2-Chinese 和該對聯資料集,訓練了一份對聯領域的 GPT-2 模型,可自動生成對聯,
它將其 server 版本對接到微信公眾號 AINLP 后臺,可以直接在對話框進行測驗,
輸入關鍵詞「寫對聯」,可觸發對聯自動生成,例如輸入「寫對聯金牛」,對聯模型會基于「金牛」進行自動續寫,給出以「金牛」開頭的 3 個對聯:
左右滑動查看更多
輸入「對對聯 + 一組上聯」,可得到三組對聯,比如:
左右滑動查看更多
目前看來,對于一些經典對聯,AI 能做到對仗比較工整,且想象力豐富,對于同一上聯,可對出多個不同下聯;而對于一些不常在對聯中出現的字詞,AI 表現有些隨意牽強,當然,讓 AI 對「人工智能」什么的,也的確是有些為難人家了,
華為團隊開發的 AI 對聯,也是以 Couplet-dataset 對聯資料集作為訓練資料,該模型可以根據給定主題,生成對聯,以下分別是輸入「新春快樂」、「平安健康」、「一夜暴富」主題的生成結果,可滑動查看:
左右滑動查看不同主題的 AI 對聯
明年,你要不要也訓練一個自己的 AI 寫春聯模型,為家人寫副對聯呢?
—— 完 ——
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/260963.html
標籤:AI
