本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理
以下文章來源于小蚊子資料分析 ,作者小蚊子資料分析
最近《八佰》這部電影破30億了,上映差不多2個月,對于沉寂了半年、影院上座率仍限定在50%的電影市場而言,這樣的成績出人意料,
從貓眼電影官網可以看到,《八佰》獲得了9.2分的高口碑,一向好奇的我產生了一些疑惑,這些人到底在評論些啥?哪些地方的人評論最多?針對不同演員角色的評論內容有什么不同?
資料獲取
貓眼電影是簡單的動態網頁,資料格式為json,通過決議介面的方式即可輕松獲取,
def parse_page(html):
try:
data = https://www.cnblogs.com/hhh188764/p/json.loads(html)['cmts'] # 將str轉換為json
#print(data)
comments = []
for item in data:
comment = {
'id': item['id'],
'nickName': item['nickName'],
'cityName': item['cityName'] if 'cityName' in item else '', # 處理cityName不存在的情況
'content': item['content'].replace('\n', ' ', 10), # 處理評論內容換行的情況
'score': item['score'],
'startTime': item['startTime']
}
comments.append(comment)
return comments
except Exception as e:
pass
資料清洗
讀取影評資料
import pandas as pd
import numpy as np
data=https://www.cnblogs.com/hhh188764/p/[]
with open('comments.txt', 'r',encoding='utf-8-sig') as f_input:
for line in f_input:
data.append(list(line.strip().split(',')))
data
轉為DataFrame并添加列名
df = pd.DataFrame(data).iloc[:, 0:6]
df.columns = ['觀眾ID','觀眾昵稱','城市','評論內容','評分','評論時間']
洗掉重復記錄和缺失值
df = df.drop_duplicates()
df = df.dropna()
預覽并保存
df.sample(5)
df.to_csv("八佰.csv",index=False,encoding="utf_8_sig")
整體評論詞云
對18萬條影評內容進行分詞,并將頻率最高的500個詞抽離出來制作詞云圖,我們發現廣大觀眾對《八佰》這部戰爭題材電影表現出強烈的情感,除了好看、不錯這些贊美之詞以外,更多的是震撼、感人、歷史、勿忘國恥等代表著強烈民族色彩的詞,
評論型別分布
超過90%的好評率,20億+的票房不是沒有道理,
差評抽樣
差評雖不多,但集中在對《八佰》結局的轟炸,
評論資料量TOP10城市
成都人對《八佰》評論熱情高漲,超過北上廣深等大城市,
相關演員提及
觀眾評論中提及歐豪和端午的次數最多,不知是因為演技還是顏值?
關于端午的評論
關于老算盤的評論
關于羊拐的評論
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/173139.html
標籤:Python
上一篇:collections模塊
下一篇:每日一題——矩陣對角線元素和
