微博關鍵詞爬蟲；超詳細爬蟲教程；整個爬蟲撰寫流程和思路；Xpath運算式撰寫；資料存盤和處理

我們大家都知道一般來說，要爬取微博的相關資訊，還是weibo.cn這個站點要好爬取一些，但是這個站點卻沒有關鍵詞檢索，所以我們不能根據自己想搜索的關鍵詞去爬取自己想要的內容，不過博主發現，微博有一個站點：“s.weibo.com”，這是一個專門根據關鍵詞來檢索相關微博的站點，下面我就該站點，利用scrapy爬取相關微博內容來為大家詳細講解其中的程序，

可以爬取的欄位

首先展示可以爬取那些欄位：
爬取的資料存盤在monogodb資料庫中
有了資料要怎么分析就是大家自己的事情了，下面我們詳細介紹怎么去爬取這些資料，

一，網頁分析

首先我們進入s.weibo.com,輸入自己想要搜索的內容，如何按F12，觀察網頁格式，
進入站點并搜索
分析網頁中的內容
要提取網頁中自己想要的內容，我們選擇用xpath去獲取，scrapy中也有.xpath()的方法，方便我們爬蟲的撰寫，這里教大家一個小技巧，我們選中自己想要標簽后可以右鍵，如何選擇copy xpath，就可以復制該標簽的xpath運算式，如何我們按住Ctrl+F，將復制的運算式放入搜索框，然后我們就可以直接在后面修改運算式，就可以提取該標簽或者和該標簽同級的標簽下相應的內容了，這一步非常重要，可以提高我們后面撰寫代碼的撰寫效率，
復制xpath運算式放入搜索框
比如我們在這里復制了該頁面第一條內容的xpath運算式，然后我修改運算式提取到同類標簽，
提取同類標簽
可以看見，該類標簽有22個，我數了一下，該頁面下剛好有22條微博，那么接下來，我們只需要在這個xpath運算式后面增加內容就可以進一步提取自己想要的欄位了，下面我們以微博的文本內容為例，
首先我們先選擇中微博的文本內容：

然后查看標簽

此時我們只需要把p標簽的文本提取出來就行，首先我們要定位p標簽，在剛才的xpath運算式后面加上：“//p[@node-type=“feed_list_content””，這樣我們就選中了了該頁面下所有微博的文本內容了，其他的欄位也是同樣的道理，我們把所有欄位的xpath運算式弄出來，在后面爬蟲的時候再來具體處理，
選中要提取的欄位

二，爬蟲部分

爬蟲部分我們，采取scrapy框架撰寫，對于這個框架的安裝和怎么創建一個專案我就不詳細介紹了，大家可以自行查找資料，
在創建好專案，生產spider后，我們首先撰寫item.py，把我們要爬取的欄位，先在item中定義好，

from scrapy import Item, Field
class KeywordItem(Item):
    """
    關鍵詞微博
    """
    keyword = Field()
    weibo_url = Field()  
    content = Field()   
    weibo_id = Field()
    crawl_time = Field()
    created_at = Field()
    tool = Field()
    repost_num = Field()
    comment_num = Field()
    like_num = Field()
    user_url = Field()
    user_id = Field()

然后撰寫pipeline.py，對爬蟲進行本地資料庫存盤，

import pymongo
from pymongo.errors import DuplicateKeyError
from settings import MONGO_HOST, MONGO_PORT

class MongoDBPipeline(object):
    def __init__(self):
        client = pymongo.MongoClient(MONGO_HOST, MONGO_PORT)
        db = client['edg']
        self.Keyword = db["Keyword"]
	
	def process_item(self, item, spider):
		self.insert_item(self.Keyword, item)
	
	@staticmethod
    def insert_item(collection, item):
        try:
            collection.insert(dict(item))
        except DuplicateKeyError:
            pass

首先是初始化函式，定義好資料庫的埠、名稱和表的名稱；然后process_item函式把item欄位都插入到表Keyword中去，item是scrapy的一大特點，它類似于字典這一資料結構，爬蟲部分將爬取到的資料存在item中然后提交給管道，進行存盤，

然后我們開始寫爬蟲部分，在spider檔案夾下面創建keyword.py，在start_requests中先定義好要爬取的網頁和headers等，

    def start_requests(self):
        headers = {
            'Host': 's.weibo.com',
            'Cookie': ''
        }
        keywords = ['edg']
        url = 'https://s.weibo.com/weibo?q={}&Refer=index&page=1'

那么我們要爬取資料肯定就不能只是爬取一頁的資料，根據觀察網站的URL我們可以發現有一個page引數，我們只需要構造該引數的值就可以實作生成不同頁面的URL，我把他放在一個URL串列中，回圈訪問就可以了，

urls = []
        for keyword in keywords:
            urls.append(url.format(keyword))
        for url in urls:
            yield Request(url, callback=self.parse,headers=headers)

然后我們來寫爬蟲處理函式parse，

    def parse(self, response):
        if response.url.endswith('page=1'):
            page = 50
            for page_num in range(2, page+1):
                page_url = response.url.replace('page=1', 'page={}'.format(page_num))
                yield Request(page_url, self.parse, dont_filter=True, meta=response.meta)
        if response.status == 200:
            html_result = response.text
            data = etree.HTML(html_result)
            nodes = data.xpath('//div[@class="card"]')

首先是要判斷URL最后的page引數是不是為1，如果是，那么我們將page復制為50（因為該網站最多顯示50頁的微博內容），然后用format方法構造50個URL，每個都遞交給parse方法去處理，
如果訪問成功，就提取去所有的“//div[@class=“card”]”賦值給nodes，這是我們上面網頁分析是提取的所有的包含微博內容的xpath運算式，然后就在nodes回圈提取所有的文本內容，

 for node in nodes:
     try:
     	content = node.xpath('.//p[@node-type="feed_list_content"]')
        keyword_item['content']=extract_weibo_content(content[0].xpath('string(.)').strip())
        yield keyword_item
     except Exception as e:
        self.logger.error(e)

這里我們只以提取微博文本內容為例

只需要將剛才在“//div[@class=“card”]”后面增加的提取的微博文本內容的xpath運算式，提取到content中，處理后在放入keyword_item（剛才說了它是類似于字典結構，用法跟字典都是一樣的）中，怎么處理才能將所有的文本都提取出來呢，這個就需要大家不斷的嘗試，像我也是嘗試很多次才知道是使用.xpath(‘string(.)’)，最后不要忘記提交給item哦，

extract_weibo_content（）是一個處理提取文本中多余的表情，符號和網址的函式，代碼如下：

def extract_weibo_content(weibo_html):
    s = weibo_html
    if 'class="ctt">' in s:
        s = s.split('class="ctt">', maxsplit=1)[1]
    s = emoji_re.sub('', s)
    s = url_re.sub('', s)
    s = div_re.sub('', s)
    s = image_re.sub('', s)
    if '<span class="ct">' in s:
        s = s.split('<span class="ct">')[0]
    splits = s.split('贊[')
    if len(splits) == 2:
        s = splits[0]
    if len(splits) == 3:
        origin_text = splits[0]
        retweet_text = splits[1].split('轉發理由:')[1]
        s = origin_text + '轉發理由:' + retweet_text
    s = white_space_re.sub(' ', s)
    s = keyword_re.sub('', s)
    s = s.replace('\xa0', '')
    s = s.strip(':')
    s = s.strip()
    return s

三，資料爬取與處理

然后我們就可以開始運行爬蟲了，
資料爬取
可以看見爬蟲運行是沒有問題的，我是使用一個ip和單個賬號進行爬取的，經過測驗，速度大概是一個小時能爬一萬條，

最后在monogodb中查看我們爬取的資料，同時我還爬取了微博的評論
資料展示
這里資料量有點少，主要是因為我爬了一會就停了，大家想要多爬些的，可以自己試試，
有了資料，想要怎么分析，就是后面的事情了，起碼做飯我們是有米了，這里生產了微博和評論的詞云
微博詞云
微博評論詞云
本人也是爬蟲愛好者，希望寫這篇文章能幫助到一些剛入門的人，歡迎大家一起交流和各位大佬批評指正，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/354644.html

標籤：python

上一篇：爬取知乎“凡爾賽語錄”話題下的所有回答，我知道點開看你的很帥氣，但還是沒我帥

下一篇：【Python零基礎到入門】Python預備知識必備篇——Python基本編碼規范

超級詳細scrapy爬蟲教程；微博關鍵詞爬蟲；整個爬蟲的撰寫與思路；最終爬取“EDG”有關微博生產詞云。

微博關鍵詞爬蟲；超詳細爬蟲教程；整個爬蟲撰寫流程和思路；Xpath運算式撰寫；資料存盤和處理

可以爬取的欄位

一，網頁分析

二，爬蟲部分

三，資料爬取與處理