主頁 > 後端開發 > Python爬蟲之小說資訊爬取與資料可視化分析

Python爬蟲之小說資訊爬取與資料可視化分析

2021-01-08 11:19:22 後端開發

文章目錄

  • 一、小說資料的獲取
  • 二、資料的分析與可視化
    • 2.1、Python讀取資料表時,有時候會發生一個很頑固的錯誤
    • 2.2、查看表的統計資訊
    • 2.3可視化圖分析

作者有話說:
1、本文雖然是一篇技術性文章,但是分析的資料可以給喜歡看小說的人提供參考
2、本文涉及的是Python爬蟲精進的知識
3、作者想通過分享,讓許多正在學習Python爬蟲的提供幫助,
4、如果你對代碼很反感,那就直接看資料分析吧!
5、文章若有不足之處,請指教,可以在評論區自由發表觀點以及提出問題,作者會及時回應,

一、小說資料的獲取

獲取的資料為起點中文網的小說推薦周榜的所有小說資訊,
網址為:https://www.qidian.com/rank/recom

源代碼對所有想要獲取的資料都有注釋,

# -*- coding: utf-8 -*-
"""
Created on Mon Jan  4 22:59:11 2021
"""
import requests
from bs4 import BeautifulSoup
import os.path
import csv
import time
import pymysql
import random
class DrawBookMessage():
    def __init__(self):
        
        """
        定義建構式,初始化最初網址,方便后面呼叫,不必重復寫
        """
        self.baseUrl='https://www.qidian.com/rank/recom';
        #定義baseurl目標網址
    
    def User_Agent(self):
        """
        定義5個代理IP隱藏身份,用5個IP隨機選取,以防止被檢測到鏈接物件而終止訪問
        """
        user_agent1 = 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'
        user_agent2 = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
        user_agent3 ='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
        #user_agent4 ='Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0'
        #這個代理在我的開發環境中會發生訪問錯誤,作者注釋在這里,便于提醒自己
        user_agent5 ='Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3'
        lst = [user_agent1,user_agent2,user_agent3,user_agent5]
        return random.choice(lst)#回傳隨機IP
    def getHtml(self,url):
        """
        通過隨機IP訪問網頁獲取網頁的內容
        """
        user_agent = self.User_Agent()#獲取隨機IP
        headers = {"User-Agent":user_agent}
        request = requests.get(url,headers=headers).text#通過IP訪問網頁,并且獲取網頁內容請求
        return request #回傳
    
    def commonsdk(self,url):
        """ 
        把文本型別轉換為<class 'bs4.BeautifulSoup'>型別,
        之后還會用BeautifulSoup庫來提取資料,如果這不是一個BeautifulSoup物件,
        我們是沒法呼叫相關的屬性和方法的,所以,這是非常重要,
        """
        html = self.getHtml(url)
        doc=BeautifulSoup(html,'lxml')#轉換為BeautifulSoup物件
        return doc
    
    def get_page_size(self,url):
        '''獲取頁面總數'''
        doc = self.commonsdk(url)
        self.pageNum = doc.find("div",class_="pagination fr")['data-pagemax']
        return int(self.pageNum)
    
    def draw_base_list(self,url):
        '''初級網頁內容'''
        doc = self.commonsdk(url)
        listt=doc.find('div',class_ = "book-img-text").find_all('div',class_ = 'book-mid-info')
        for x in listt:
            self.bookName = x.find('h4').text.strip()#書名
            self.bookUrl ='https:'+x.find('h4').find('a')['href']#書的二級網址
            self.bookAuthor = x.find('p').find(class_='name').text.strip()#
            self.bookType = x.find('p').find('a',class_='').text.strip()#小說的型別
            self.bookStatus = x.find('p').find('span').text.strip()#小說更新的狀態
            self.draw_Second_list()#呼叫獲取二級網頁內容
            self.dict_data()#呼叫生成字典的函式
            
           
    def draw_Second_list(self):
        '''獲取二級網頁內容'''
        doc = self.commonsdk(self.bookUrl)
        listt1 = doc.find('div',class_="book-info")
        self.bookIntrodaction = listt1.find(class_="intro").text.strip()#獲取小說簡介
        listt2 = doc.find(class_="fans-interact cf")
        if listt2.find(class_ ='ticket rec-ticket')==None:#ticket rec-ticket為空,ticket rec-ticket hidde不為空,有月票的標簽
            self. monthTickets = listt2.find(class_ ='ticket month-ticket').find(class_ = 'num').text#小說月票
            self. weekTickets =  listt2.find(class_ ='ticket rec-ticket hidden').find(class_ = 'num').text#小說周票
        if listt2.find(class_ ='ticket rec-ticket hidden')==None:#ticket rec-ticket不為空,ticket rec-ticket hidde為空,沒有有月票的標簽
            self. monthTickets=0#沒有月票標簽時,月票為0
            self. weekTickets =  listt2.find(class_ ='ticket rec-ticket').find(class_ = 'num').text #小說周票
        self.weekWardNum = listt2.find(class_= 'rewardNum').text#小說本周打賞人數
        
        
    def dict_data(self):
        """
        定義一個人方法生成需要存入資料的字典
        """
        ctime = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime());#當前爬取時間
        data={
                '書名':self.bookName,
                '作者':self.bookAuthor,
                '型別':self.bookType,
                '狀態':self.bookStatus,
                '月票':int(self. monthTickets),
                '周票':int(self.weekTickets),
                '本周打賞人數':int(self.weekWardNum),
                '本書簡介':self.bookIntrodaction,
                '爬取時間':ctime   
                }
        print(data)
        print("="*50)
        self.write_to_MySQL(data,"spiders","bookMessage")#寫入資料庫
        self.write_to_scv(data,'bookMessage.csv')#寫入.CVS檔案
        pass
    
    def write_to_scv(self,dic,filename):
        """寫入csv檔案"""
        file_exists = os.path.isfile(filename)#判斷是否為檔案
        with open(filename, 'a',encoding='gb18030',newline='') as f: #a表示追加模式不覆寫原檔案中的內容,newline = "" 表示讀取的換行符保持不變,原來是啥,讀出來還是啥
            headers=dic.keys()
            w =csv.DictWriter(f,delimiter=',',lineterminator='\n',fieldnames=headers)#創建一個物件
            if not file_exists :
                 w.writeheader()
            w.writerow(dic)#單行寫入
        print('當前行寫入csv成功!')
        pass
        
    def write_to_MySQL(self,dic,database,table_name): 
        """ 寫入資料庫"""
        keys = ', '.join(dic.keys())
        values = ', '.join(['% s'] * len(dic))#動態的構造占位符
        db = pymysql.connect(host='localhost', user='root', password=(自己的資料庫密碼), port=3306, db=database)#連接資料庫
        cursor = db.cursor()#資料庫連接物件
        sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table_name, keys=keys, values=values)#插入陳述句
        try:
            if cursor.execute(sql, tuple(dic.values())):
                 print('Successful')
                 db.commit()#commit是把查詢陳述句提交到資料庫內
        except:
            print('Failed')
            db.rollback()
        cursor.close()#關閉物件
        db.close()#關閉資料庫釋放資源
    
  
if __name__ == '__main__':
    """主函式"""
    drawBook = DrawBookMessage()
    page = drawBook.get_page_size(drawBook.baseUrl)
    for x in range(1,page+1):
        drawBook.draw_base_list(drawBook.baseUrl+'?page='+str(x))
    

看到這里不知道是否對你有所幫助?看不懂的可以評論區留言,順便點個贊,嘻嘻嘻嘻嘻嘻!
在這里插入圖片描述

二、資料的分析與可視化

相信大家對pandas都有了解吧,我就直入主題——資料分析,

2.1、Python讀取資料表時,有時候會發生一個很頑固的錯誤

在這里插入圖片描述
在這里一般性如果表中有中文的話,讀表的時候就會報這個錯誤,這里把默認編碼改為gbk一般就能解決這個問題,即encoding=‘gbk’,

2.2、查看表的統計資訊

(1)describe()查看表的相關資訊資訊

data.describe()
   # count:數量統計,此列共有多少有效值
   #std:標準差
   #min:最小值
   #25%:四分之一分位數
   #50%:二分之一分位數
   #75%:四分之三分位數
   #max:最大值
   #mean:均值

在這里插入圖片描述
通過這個結果可以得出各票數的情況和打賞的人數,
(2)根據周票數對小說排序
我們通過排序可以篩選出周票數前5的小說

data.sort_values(by = '周票',ascending = False).head(5)

在這里插入圖片描述
可以知道當前這5本小說人氣很高,很多人還喜歡看完結的小說,畢竟一次性看完的感覺特別爽,我們也把幾本完結的小說獲取出來

data.loc[data['狀態']=='完本'].sort_values(by = '周票',ascending = False)

在這里插入圖片描述
可以得出最近100流行小說中只有2本是完結的,

2.3可視化圖分析

(1)折線圖
對于讀者,都有不同的喜好都市、有的喜好玄幻、有的喜歡輕小說……讓我們看一下最近這些小說各票數綜合情況,通過下面打代碼可以得出折線圖情況,

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
plt.rcParams['font.sans-serif'] = ['SimHei'] #解決橫坐標不能顯示中文的況
plt.rcParams['axes.unicode_minus'] = False#解決橫坐標不能顯示中文的情況
#三條縱坐標的值
y1 = data.groupby('型別').sum()['本周打賞人數']#求和
y2 = data.groupby('型別').mean()['周票']#求平均值
y3 = data.groupby('型別').mean()['月票']#求平均值
x=list(dict(y1).keys())#橫坐標值
fig = plt.figure(figsize=(8,6), dpi=100)#指定畫布大小
plt.plot(x,y1,c='red',label='打賞票和')指定折線的顏色和標簽
plt.plot(x,y2,c='green',label='周票均值')
plt.plot(x,y3,c='blue',label='月票均值')
plt.legend(loc='upper left')#標簽靠左
plt.ylabel('周票平局值、月票平局值、打賞票和',fontsize=15)改變定橫坐標名稱以及字體大小,
plt.title("小說票數折線圖")#圖名
plt.xlabel('小說型別',fontsize=15)
plt.show()

在這里插入圖片描述
通過折線圖可以直觀的看書流行的趨勢,可以分析到奇幻小說最受歡迎,讀者最多,

(2)柱狀圖

在這里插入代碼片plt.rcParams['figure.figsize']=(8,3)#圖形大小
data.groupby(['型別']).mean().plot(kind = 'bar')
plt.xticks(rotation=0)#橫坐標的角度
plt.ylabel('number of people',fontsize = 15)#縱坐標名
plt.xlabel('Date',fontsize = 15)#橫坐標名

在這里插入圖片描述
柱狀圖可以出月票、周票、以及打賞人數沒有很直接的關系,比如奇幻周票高,但是其他兩項的票數卻非常低,

(3)餅狀圖

sizes = []
for booktype in x:#x是上文折線圖中橫坐標,即小說所有的型別,
    bookTypeNum=len(data[data['型別']==booktype])#獲取各種小說的數量
    sizes.append(bookTypeNum)
plt.figure(figsize=(10,15)) #調節圖形大小
plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['axes.unicode_minus'] = False
plt.pie(
    sizes,
    labels=x,#指定顯示的標簽
    autopct='%1.1f%%'#資料保留固定小數位
)
#plt.axis('equal')# x,y軸刻度設定一致#本文中可以不用
plt.title('小說型別受歡迎的分布圖比')
plt.legend(loc='upper left')# 左上角顯示
plt.show()

在這里插入圖片描述
通過餅狀圖可以得出奇幻、都市、仙俠、輕小說幾類小說很受大家追捧,
(4)詞云圖

import jieba
import wordcloud
string = ''
for i in range(len(x)):
    string = str + (x[i])*int(sizes[i])
print(string)string=' '.join(string)
w = wordcloud.WordCloud(background_color='white',font_path='simfang.ttf')
#這里指明font_path時的字體一定要是自己電腦C:\windows\Fonts下包含有的字體,不然會報錯,或者出現亂碼,
w.generate(string)
w.to_file(r"bookMessage.png")

在這里插入圖片描述
根據詞云的字的大小可以看出當下最受大家追捧的小說的型別,
(5)散點圖

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['figure.figsize']=(12,8)
np.random.seed(0) #執行多次每次獲取的亂數都是一樣的
colors = np.random.rand(100)
size = np.random.rand(20)*1000#隨機大小
plt.scatter(a,b,c=colors,s=size,alpha=0.7,marker='*')
plt.xlabel('月票數',fontsize = 15)#橫坐標名
plt.ylabel('周票數',fontsize = 15)#縱坐標名
plt.title("月票和周票散點圖")
plt.show()

在這里插入圖片描述
通過散點圖可以得出大部分小說的月票和周票的數目很少,只有少數的小說月票和周票數目多,往往這些小說就是當下最火的小說,
結語:
本文到此結束,不知道螢屏前的你,有識訓了嗎?
你看過那些很火的小說呢?
你有哪些知識點看不懂或者需要幫助?
或者你只是路過,但相遇即是緣,不妨留下你的足跡哦!
歡迎留言點贊與我一起討論,我在世界的另一端等你哦!讓我們一起共同進步

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/246182.html

標籤:python

上一篇:Python爬蟲自動化,幫小姐姐解放雙手

下一篇:Anaconda3+python3.7.0+pytorch1.6.0+cuda10.0+cudnn7.6.4+tensorflow1.15

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more