本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理

以下文章來源于小蚊子資料分析，作者小蚊子資料分析

最近《八佰》這部電影破30億了，上映差不多2個月，對于沉寂了半年、影院上座率仍限定在50%的電影市場而言，這樣的成績出人意料，

從貓眼電影官網可以看到，《八佰》獲得了9.2分的高口碑，一向好奇的我產生了一些疑惑，這些人到底在評論些啥？哪些地方的人評論最多？針對不同演員角色的評論內容有什么不同？

資料獲取

貓眼電影是簡單的動態網頁，資料格式為json，通過決議介面的方式即可輕松獲取，

def parse_page(html):
    try:
        data = https://www.cnblogs.com/hhh188764/p/json.loads(html)['cmts']  # 將str轉換為json
        #print(data)
        comments = []
        for item in data:
            comment = {
                'id': item['id'],
                'nickName': item['nickName'],
                'cityName': item['cityName'] if 'cityName' in item else '',  # 處理cityName不存在的情況
                'content': item['content'].replace('\n', ' ', 10),  # 處理評論內容換行的情況
                'score': item['score'],
                'startTime': item['startTime']
            }
            comments.append(comment)
        return comments
    except Exception as e:
        pass

資料清洗

讀取影評資料

import pandas as pd
import numpy as np
data=https://www.cnblogs.com/hhh188764/p/[]
with open('comments.txt', 'r',encoding='utf-8-sig') as f_input:
    for line in f_input:
        data.append(list(line.strip().split(',')))
data

轉為DataFrame并添加列名

df = pd.DataFrame(data).iloc[:, 0:6]
df.columns = ['觀眾ID','觀眾昵稱','城市','評論內容','評分','評論時間']

洗掉重復記錄和缺失值

df = df.drop_duplicates()
df = df.dropna()

預覽并保存

df.sample(5)
df.to_csv("八佰.csv",index=False,encoding="utf_8_sig")

整體評論詞云

對18萬條影評內容進行分詞，并將頻率最高的500個詞抽離出來制作詞云圖，我們發現廣大觀眾對《八佰》這部戰爭題材電影表現出強烈的情感，除了好看、不錯這些贊美之詞以外，更多的是震撼、感人、歷史、勿忘國恥等代表著強烈民族色彩的詞，

評論型別分布

超過90%的好評率，20億+的票房不是沒有道理，

差評抽樣

差評雖不多，但集中在對《八佰》結局的轟炸，

評論資料量TOP10城市

成都人對《八佰》評論熱情高漲，超過北上廣深等大城市，

關于端午的評論

關于老算盤的評論

關于羊拐的評論

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/173139.html

標籤：Python

上一篇：collections模塊

下一篇：每日一題——矩陣對角線元素和

爬取180000條影評，分析電影《八佰》的30億之路