本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
原畫爬取
先看一下爐石傳說的原畫:
爐石傳說原畫鏈接:
http://news.4399.com/gonglue/lscs/kptj/
該網站通過點擊查看更多加載新的內容,本打算使用Selenium模擬點擊獲取圖片資訊 ,嘗試發現原始碼中 該按鈕并無相應的跳轉鏈接
這不應該啊 沒有相應的跳轉鏈接 點擊后是如何加載新的圖片?
后來瀏覽整體網站原始碼后 發現把問題想復雜 根本不需要模擬點擊查看更多
網站其實已經加載了所有的卡牌原畫 只是之后的原畫做了隱藏處理默認不展示 style=display
點擊查看更多后 顯示原畫
那么只需使用requests獲取網頁原始碼
用BeautiSoup/正則運算式/pyQuery決議元素 遍歷相應img的url 即可下載
教訓:爬蟲前 不要根據網頁所對的操作實施相應的代碼爬取 不要有這樣的思維定式 首先要做的是先大體瀏覽分析整個網頁的源代碼 有的可能直接寫在原始碼或json或js中 無需再加工
卡牌爬取
爐石傳說卡牌鏈接:
http://cha.17173.com/hs/
該網站通過下拉右邊的滾動條不斷加載新的卡牌
與上一個網站不同 上一個網站一次性寫入了所有卡牌 只不過做了隱藏處理
該網站是通過js動態加載渲染出的卡牌 直接獲取原始碼 無法得到所有卡牌資訊
那么就用selenium模擬下拉滾動條(selenium簡直居家必備之神器)
使用selenium執行js腳本 每次執行下拉1000個單位滾動條 執行90次
為什么是90次 測驗出來的 大概90次拉到底
注意:這里要增加1~3秒的暫停時間 用于網頁渲染
第一次沒有設定停留時間 無法獲取新的資料 懷疑自己 懷疑人生
經前端/后端好友L君的提示 需增加暫停時間 這樣才能獲得加載渲染后的資料
browser.page_source便可獲得動態加載的所有資料
有了資料 之后就很簡單 正則匹配獲取相應url下載即可
既然獲得了這么多卡牌和原畫 不能浪費 利用起來 拼圖!
以上文章來源于碼農小黑屋,作者 丨像我這樣的人丨
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/164773.html
標籤:其他
