
《紅樓夢》作為我國四大名著之一,古典小說的巔峰之作,粉絲量極其龐大,而紅學也經久不衰,所以我們今天通過 Python 來探索下紅樓夢里那千絲萬縷的人物關系,話不多說,開始整活!
一、準備作業
- 紅樓夢txt格式電子書一份
- 金陵十二釵+賈寶玉人物名稱串列
寶玉 nr
黛玉 nr
寶釵 nr
湘云 nr
鳳姐 nr
李紈 nr
元春 nr
迎春 nr
探春 nr
惜春 nr
妙玉 nr
巧姐 nr
秦氏 nr
該分串列是為了做分詞時使用,后面的 nr 就是人名的意思,
二、人物出鏡次數
首先讀取小說
with open("紅樓夢.txt", encoding="gb18030") as f: honglou = f.read() # 更多視頻教程、電子書、原始碼加君羊:279199867
接下來進行出場次數資料整理
honglou = honglou.replace("\n", " ") honglou_new = honglou.split(" ") renwu_list = ['寶玉', '黛玉', '寶釵', '湘云', '鳳姐', '李紈', '元春', '迎春', '探春', '惜春', '妙玉', '巧姐', '秦氏'] renwu = pd.DataFrame(data=https://www.cnblogs.com/hahaa/archive/2022/08/11/renwu_list, columns=['姓名']) renwu['出現次數'] = renwu.apply(lambda x: len([k for k in honglou_new if x[u'姓名'] in k]), axis=1) renwu.to_csv('renwu.csv', index=False, sep=',') renwu.sort_values('出現次數', ascending=False, inplace=True) attr = renwu['姓名'][0:12] v1 = renwu['出現次數'][0:12]
這樣我們就得到了 attr 和 v1 兩個資料,內容如下

下面就可以通過 pyecharts 來繪制柱狀圖了
bar = ( Bar() .add_xaxis(attr.tolist()) .add_yaxis("上鏡次數", v1.tolist()) .set_global_opts(title_opts=opts.TitleOpts(title="紅樓夢上鏡13人")) ) bar.render_notebook()

三、人物關系
1、資料處理
我們先將讀取到記憶體中的小說內容進行 jieba 分詞處理
import jieba jieba.load_userdict("renwu_forcut") renwu_data = pd.read_csv("renwu_forcut", header=-1) mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]
通過 load_userdict 將我們上面自定義的詞典加載到了 jieba 庫中
分詞處理
tmpNames = [] names = {} relationships = {} for h in honglou: h.replace("賈妃", "元春") h.replace("李宮裁", "李紈") poss = pseg.cut(h) tmpNames.append([]) for w in poss: if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist: continue tmpNames[-1].append(w.word) if names.get(w.word) is None: names[w.word] = 0 relationships[w.word] = {} names[w.word] += 1
因為文中"賈妃", “元春”,“李宮裁”, “李紈” 等人物名字混用嚴重,所以這里做替換處理,
然后使用 jieba 庫提供的 pseg 工具來做分詞處理,會回傳每個分詞的詞性,
之后做判斷,只有符合要求且在我們提供的字典串列里的分詞,才會保留,
一個人每出現一次,就會增加一,方便后面畫關系圖時,人物 node 大小的確定,
對于存在于我們自定義詞典的人名,保存到一個臨時變數當中 tmpNames
處理每個段落中的人物關系
for name in tmpNames: for name1 in name: for name2 in name: if name1 == name2: continue if relationships[name1].get(name2) is None: relationships[name1][name2] = 1 else: relationships[name1][name2] += 1
對于出現在同一個段落中的人物,我們認為他們是關系緊密的,同時每出現一次,關系增加1 ,
可以把相關資訊保存到檔案當中
with open("relationship.csv", "w", encoding='utf-8') as f: f.write("Source,Target,Weight\n") for name, edges in relationships.items(): for v, w in edges.items(): f.write(name + "," + v + "," + str(w) + "\n") with open("NameNode.csv", "w", encoding='utf-8') as f: f.write("ID,Label,Weight\n") for name, times in names.items(): f.write(name + "," + name + "," + str(times) + "\n")
檔案1:人物關系表,包含首先出現的人物、之后出現的人物和一同出現次數,
檔案2:人物比重表,包含該人物總體出現次數,出現次數越多,認為所占比重越大,
2、資料分析
下面我們可以做一些簡單的人物關系分析
這里我們還是使用 pyecharts 繪制圖表
def deal_graph(): relationship_data = pd.read_csv('relationship.csv') namenode_data = pd.read_csv('NameNode.csv') relationship_data_list = relationship_data.values.tolist() namenode_data_list = namenode_data.values.tolist() nodes = [] for node in namenode_data_list: if node[0] == "寶玉": node[2] = node[2]/3 nodes.append({"name": node[0], "symbolSize": node[2]/30}) links = [] for link in relationship_data_list: links.append({"source": link[0], "target": link[1], "value": link[2]}) g = ( Graph() .add("", nodes, links, repulsion=8000) .set_global_opts(title_opts=opts.TitleOpts(title="紅樓人物關系")) ) return g
首先把兩個檔案通過 pandas 讀取到記憶體當中
對于“寶玉”,由于其占比過大,如果統一進行縮放,會導致其他人物的 node 過小,展示不美觀,所以這里先做了一次縮放
最后我們得到的人物關系圖如下

鐵子們,今天的分享就到這, 如果感覺文章內容不錯的話,記得關注+收藏讓更多的人看到!
給大家分享一套視頻,非常全面!
Python爬蟲:代碼總是學完就忘記?100個爬蟲實戰專案!讓你沉迷學習丨學以致用丨下一個Python大神就是你!
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/501602.html
標籤:其他
