分析一下，最近網友的熱烈關注的韓國電影《獨行》是否值得觀看-有解無憂

前言

繼上一部喪尸佳作《釜山行》，最近韓國又推出一部喪尸題材電影《活著》，引起網友的熱烈關注，據說和《釜山行》不相上下，作為喪尸題材的忠實影迷，小編想看一下《活著》這部電影的影評，來衡量是否真值得觀看！

PS：如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取

可以免費領取原始碼、專案實戰視頻、PDF檔案等

01-代碼實作用戶登錄

本來小編打算爬取豆瓣電影官網的“已看”用戶的全部熱門影評，但是未登錄的情況下只能爬取前200條資料，于是要用代碼實作豆瓣登錄：

https://accounts.douban.com/j/mobile/login/basic

是我們需要的登錄網址，接下來就來實作豆瓣用戶登錄：

# 匯入包
import random
import requests
import re
import os
import time
import jieba
from PIL import Image
import numpy as np
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

# 不同的代理IP,代理ip的型別必須和請求url的協議頭保持一致
proxy_list = [
        {"http": "112.115.57.20:3128"},
        {'http': '121.41.171.223:3128'}
]
# 隨機獲取代理IP
proxy = random.choice(proxy_list)

# 生成Session物件，用于保存cookie，保存會話狀態
s = requests.Session()

def login_douban():
    """
    登錄豆瓣
    :return:
    """
    # 登錄的url
    login_url = 'https://accounts.douban.com/j/mobile/login/basic'
    # 請求頭
    headers = {'User-Agent': 'Mozilla/5.0',
               'Referer': 'https://accounts.douban.com/passport/login?source=movie'}
    #用戶名密碼
    data = https://www.cnblogs.com/hhh188764/p/{'name': '你的用戶名',
            'password': '你的密碼',
            'remember': 'false'}  # 不記住密碼
    try:
        r = s.post(login_url, headers=headers, data=https://www.cnblogs.com/hhh188764/p/data, proxies=proxy)
        r.raise_for_status()
        return True
    except:
        print("登錄失敗！")
    # 列印請求結果
    print(r.text)

實作豆瓣用戶登錄

注意：這里需要提供一個IP代理池串列proxy_list，以防爬取一半IP被禁（小編“深受其害”）

02-找到影評介面，爬取資料

打開開發者工具看下網頁源代碼，找到影評介面，如下：

https://movie.douban.com/subject/34462775/comments?start=%s&limit=20&sort=new_score&status=P

其中34462775是該電影的專屬id，start代表頁面起始頁，此文只為做影評分析演示，小編只爬取了截止2020/8/4日晚8點前500頁的熱門評論，

影評資料介面

發現每一頁影評的不同在于“start=？”的起始數字不一樣，第二頁的數字為start=20，于是我們可以開始爬取資料了，

COMMENT_FILE_PATH = 'huozhe.txt'
def spider_comment(start):
    """
    簡單爬取
    :param start: 0
    :return: 20
    """
    comment_url = "https://movie.douban.com/subject/34462775/comments?start=%s&limit=20&sort=new_score&status=P" % str(start)
    headers = {'User-Agent': 'Mozilla/5.0'}
    try:
        r = s.get(comment_url, headers=headers)
        r.raise_for_status()
    except:
        print("資料請求失敗，start=" + str(start))

    # 爬取
    comments = re.findall('<span >(.*)</span>', r.text)

    # 寫入資料
    with open(COMMENT_FILE_PATH, 'a+', encoding=r.encoding) as file:
        file.writelines('\n'.join(comments))

def batch_spider_comment():
    """
    批量爬取資料
    :return: 《活著》所有影評
    """
    # 寫入資料前清空之前的資料
    if os.path.exists(COMMENT_FILE_PATH):
        os.remove(COMMENT_FILE_PATH)
    page = 0
    while page <= 500: # 所有熱門評論為19826條，截止2020/8/4，每頁顯示20條，這里規定頁數，只爬取一半的資料
        spider_comment(page)
        print("爬取第" + str(page) + "頁")
        page += 1
        # 模擬用戶瀏覽，防止被禁IP
        time.sleep(random.random()*3)
    print("爬取完畢")

# 呼叫
if __name__ == '__main__':
    if login_douban():
      batch_spider_comment()

批量爬取資料

爬取完的資料存盤在“huozhe.txt”檔案~內容如下：

爬取的影評文本結果

03-詞云分析

為了分析短評，我們采用jieba對短評進行了分詞，然后做出詞云圖，

def cut_word():
    """
    對影評分詞
    :return:分詞后的資料
    """
    with open(COMMENT_FILE_PATH, encoding='utf-8') as file:
        comment_txt = file.read()
        wordlist = jieba.cut(comment_txt, cut_all=True)
        wl = " ".join(wordlist)
        print(wl)
        return wl

WC_MASK_IMG = 'wc_mask.jpg' #詞云背景模板
def create_word_cloud():
    """
    生成詞云
    :return:
    """
    # 設定詞云形狀圖片
    wc_mask = np.array(Image.open(WC_MASK_IMG))
    # 資料清洗串列
    stop_words = ['女主角', '主角', '直升機', '直升', '升機', '哈哈哈', '哈哈', '哈哈哈哈', '無人機', '無人', '什么', '就是', '不是', '但是', '還是', '只是', '這樣', '這個', '雖然', '而且']
    with open("wcstopwords.txt", "r", encoding="utf-8") as f_stopwords: # 這里從網上下載的stopword詞庫存盤在wcstopwords.txt，讀取
        for word in f_stopwords: 
            stop_words.append(word.replace("\n", ""))

    # 設定詞云的一些配置
    wc = WordCloud(background_color='white', max_words=80,
                   mask=wc_mask, max_font_size=50, min_font_size=5, scale=2,
                   random_state=42, stopwords=stop_words,
                   font_path='PingFang Regular.ttf') # 詞云字體

    # 生成詞云
    wc.generate(cut_word())
    wc.to_file('doubanhuozhe.png')

    plt.imshow(wc, interpolation='bilinear')
    plt.axis("off")
    plt.figure()
    plt.show()

# 呼叫
if __name__ == '__main__':
    create_word_cloud()

分詞并可視化詞云

詞云結果圖如下：

直觀來看，和《釜山行》一樣，《活著》這部電影是關于韓國喪尸題材、逃生的劇情，有好評（“演技在線”）也有差評（“莫名其妙”），但明顯差評居多，總體來說，本部影片并沒有什么亮點，兩位知名演員或許吸引了一部分熱度，實力和演技觀眾也給予肯定，就劇情而言單薄了許多，看來不值得去看，

本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理，

作者：田妍

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/63449.html

標籤：Python

上一篇：Python 運算子

下一篇：【Python】亂數/隨機值