我是一個本科新人,現在只學過C++,需要做一個從BBS抓取資訊的網路爬蟲,并且要對抓取到的資訊按照論壇版塊進行劃分,還需要能夠對資訊進行分析,比如找到當日的熱詞等。
請各位大牛指點一下,我現在實在不知道該怎么下手。
uj5u.com熱心網友回復:
首先用HTTP協議把相關網頁下載下來然后分析HTML檔案,找出里面感興趣的東西,如論壇結構、關鍵詞、鏈接等等
uj5u.com熱心網友回復:
需要用到正則運算式這樣的查找技術uj5u.com熱心網友回復:
BCB6支持正則嗎?uj5u.com熱心網友回復:
一步一步來,不要一上來就問這么籠統的問題。先把下載網頁的問題解決吧。uj5u.com熱心網友回復:
uj5u.com熱心網友回復:
每一步都有不少問題要處理,是一個很系統的作業。不可能一個帖子就解決的。如果你不能把問題分解成一塊塊的小知識點,去查閱技術參考或者來論壇提問的話,那顯然你承擔了一項不可能的任務。
uj5u.com熱心網友回復:
網頁不是都有設定關鍵字的么,一般網頁都想要搜索引擎(如:百度,GOOGLE等)收錄,都會自己設定一些的,你先了解這個,然后把網頁中這部分的提取出來應該也差不多了。轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/137562.html
標籤:數據庫及相關技術
下一篇:關于winsock2.h 急
