不是吧不是吧，不會有人不知道這本文學作品吧

金P梅作為古代精品文學作品，作者的筆功力確實厲害，小弟佩服至極，所以今天來爬一爬，但是不準備看，主要是看不懂，

相信各位也只是學學技術，書有什么好看的~

在這里插入圖片描述

你需要先準備這些

首先你要安裝這兩個模塊

requests
parsel

鍵盤上按住win+r ，在彈出來的運行框輸入cmd，確定后在彈出的命令提示符視窗輸入 pip install 模塊名，回車即可，

下載時間太長了就加上鏡像源，例如這是清華鏡像源https://pypi.tuna.tsinghua.edu.cn/simple

在模塊名前面加上 -i 鏡像源地址，如：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 模塊名
————————————————————————————————————————————————————————————
目標地址
在這里插入圖片描述

效果展示

爬取程序

在這里插入圖片描述

爬取結果

在這里插入圖片描述

完整代碼

import requests
import parsel
url = 'https://www.改成目標地址.com/shu/3801.html'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
selector = parsel.Selector(response.text)
page_urls = selector.css('.panel-body dd a::attr(href)').getall()

for page_url in page_urls:
    # print(page_url)
    try:
        new_url = 'https://www.tianyabook.com' + page_url
        response = requests.get(url=new_url, headers=headers)
        response.encoding = response.apparent_encoding
        selector = parsel.Selector(response.text)
        content = selector.css('#htmlContent::text').getall()
        title = selector.css('.page-header h1::text').get()
        html_data = ''.join(content)
        html_content = html_data.strip().replace('\n', '')
        with open('金p梅.txt', mode='a', encoding='utf-8') as f:
            f.write(title)
            f.write('\n')
            f.write(html_content)
            f.write('\n')
            print('{}已下載完成'.format(title))
    except:
        print('None')

#兄弟們學習python，有時候不知道怎么學，從哪里開始學，掌握了基本的一些語法或者做了兩個案例后，不知道下一步怎么走，不知道如何去學習更加高深的知識，
#那么對于這些大兄弟們，我準備了大量的免費視頻教程，PDF電子書籍，以及視頻源的源代碼！
#還會有大佬解答！
#都在這個群里了 924040232
#歡迎加入，一起討論 一起學習！

本次分享就到這里結束了，兄弟們趕緊試試吧~

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/424916.html

標籤：其他

上一篇：SpringMVC 決議（三） Controller 注解

下一篇：動態規劃解法總結

Python采集古代精品大作，品味古典文學佳作

不是吧不是吧，不會有人不知道這本文學作品吧

你需要先準備這些

效果展示

完整代碼