
l 采集網站
?【場景描述】采集貓眼電影熱門資訊資料,
【源網站介紹】貓眼電影為用戶提供熱點影視資訊,新聞資訊,讓用戶能夠提前了解當下即將上映的電影資訊,
【使用工具】前嗅ForeSpider資料采集系統,免費下載:
ForeSpider免費版本下載地址
【入口網址】
https://www.maoyan.com/news?showTab=2&offset=0
【采集內容】
采集貓眼電影上的熱門新聞資訊資料,采集欄位:標題、資訊內容,

【采集效果】如下圖所示:

l 思路分析
配置思路概覽:

l 配置步驟
1.新建采集任務
選擇【采集配置】,點擊任務串列右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步,

2.獲取翻頁鏈接
采用鏈接過濾的方法來抽取翻頁鏈接,具體如下所示:
①在瀏覽器上先觀察翻頁鏈接規律,找到規律,很明顯翻頁鏈接中都包含:https://www.maoyan.com/news?showTab=2&offset=

②設定地址過濾,過濾包含“https://www.maoyan.com/news?showTab=2&offset=”的鏈接,這樣就把翻頁鏈接過濾出來了,

③關聯模板,將翻頁鏈接抽取,關聯模板01,

3.抽取串列鏈接
①新建一個鏈接抽取,改名為【串列鏈接】,將翻頁鏈接抽取改名為【翻頁鏈接】,

②使用鏈接過濾的方法來獲取串列鏈接,先采集預覽,打開串列鏈接預覽結果,找到資訊鏈接并觀察規律,發現其中都包括:“https://www.maoyan.com/films/news/+一串數字”

③設定地址過濾,過濾包含“https://www.maoyan.com/films/news/”的鏈接,這樣就把翻頁鏈接過濾出來了,其中\d表示數字串,

4.抽取資料
①新建一個抽取模板,在其下新建一個資料抽取,具體操作如下所示:

②資料建表,按照下圖所示建資料表,(注意欄位屬性等應嚴格按照下圖進行設定)

③將新建好的資料表,關聯到模板中去,如下圖所示:

④填寫示例資料,采集預覽,復制任意一條影評鏈接,

⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接,

⑥關聯模板

⑦資料取值
使用定位取值的方法,title欄位如下所示:

Text欄位如下所示:

⑧采集預覽
采集預覽如下圖所示,說明配置成功,可以開始采集,如果有哪個欄位或者資料沒有出來,再次檢查之前配置,正確配置模板,

l 采集步驟
模板配置完成,采集預覽沒有問題后,可以進行資料采集,
①建立資料表單:
選擇【資料建表】,點擊【表單串列】中該模板的表單,在【關聯資料表】中選擇【創建】,表名稱自定義,這里命名為【maoyan】(注意命名不能用數字和特殊符號),點擊【確定】,創建完成,勾選資料表,并點擊右上角保存按鈕,

②開始采集
選擇【資料采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集,

③匯出資料
采集結束后,可以在【資料瀏覽】中,選擇資料表查看采集資料,并可以匯出資料,


④匯出的檔案打開如下圖所示:

本教程僅供教學使用,嚴禁用于商業用途!
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/538411.html
標籤:大數據
