爬蟲如何維護網頁的關聯關系?生產者執行緒向佇列放入url,消費者執行緒從佇列中取出url,并進行決議,獲取到決議資料,并找到新的url放入佇列。那么有個問題:比如一級頁面有很多公司名稱,點進去某一個公司,顯示的是該公司的所有部門,選擇一個部門點進去是該部門下所有的員工。那么獲取到公司名稱之后,給這個公司生成一個id=1的話,那么二級頁面,每個部門的parent_id=1,三級頁面的parent_id肯定來自于二級頁面的某一個部門。如果單純的url放佇列這種方式如何維護以上的關系呢?
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/87435.html
標籤:Web 開發
上一篇:佇列資料型別定義問題
下一篇:指令重拍與可見性
