本人是一個剛開始學習爬蟲的學生,在實訓時需要爬取網站內容做資料分析,我的目標網站是:https://www.nz86.com/fashion/
我需要大量爬取該網站內的網頁,但是網頁的網址由數字和字母混合組成,如下圖:
(不允許放多個鏈接,只能這樣了)怎么才能用回圈或其他方法爬取這樣的網站源代碼?
uj5u.com熱心網友回復:
把頁面所有 tag = a 的整成串列。 按串列爬。uj5u.com熱心網友回復:
來個正則匹配下就出來了import requests
import re
headers={
'user-agent':'Mozilla/5.0 '
}
url = 'https://www.nz86.com/fashion/'
resp = requests.get(url=url,headers=headers)
re_text='\"(https://www\.nz86\.com/article/.*?)\"'
urllist = re.findall(re_text,resp.text)
for article_url in urllist:
print(article_url)
uj5u.com熱心網友回復:
不是這個意思,我是除了頁面上包含的鏈接之外也要,
uj5u.com熱心網友回復:
那要用scrapy庫,crawl 遞回呼叫,正站爬取這里也說不清楚,你要上網找找教程
uj5u.com熱心網友回復:
開始都沒讀懂想干嘛
你網站網址有了,這些鏈接中的數字和字母影響你爬資料嗎?就是個檔案的網路地址,你一個個讀到了,里面的內容提取出來不就行了。
你現在可能還沒爬網頁的思維,先學習一下爬網頁的套路,你這些都不是問題,只是流程中的一塊而已
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/29973.html
上一篇:ImportError: cannot import name 'sip' from 'PyQt5' 怎么解決
下一篇:python 遞回函式問題
