做爬蟲爬取了一些問答資料存盤在MongoDB資料庫,我的單個字典設計是:{"k1":"問答的題目","url":"檔案的鏈接地址","k2":"問答的時間","k3":"回答條數",{"張三":"他的回答是.....","李四":"他的回答是.....","王五":"他的回答是....."}},我的資料結構是這樣的,唯一不會變的就是k1和url,也就是問答的題目和問答檔案的鏈接地址不會變,其余的在任何時候任何人都會去評論,所以這個字典會定時更新,這樣具體該怎么做,資料怎么操作存盤,怎么操作查詢啊
uj5u.com熱心網友回復:
我看了需求, 大概覺得應該滿足需求,供參考:兩個表
問題資訊表
question_tbl (
qid 自動增加欄位
k1
url
)
回答資訊表
anwser_tbl (
aid 自動增加欄位
qid 問題表ID
anwser_name 回答人
anwser_comment 回答內容
anwser_time 回答時間
)
question_tbl 和 anwser_tbl 用 qid 關聯。
根據 anwser_tbl 里的qid 分組統計出k2(最后回答時間) , k3(數量)
uj5u.com熱心網友回復:
你的這個思路我明白了,確實可以做到,但是實際我這資料量太大了,很多評論有70-80條,資料冗余量太大了,問答的條目也有幾十萬條,網上說問答型別資料用MongoDB存盤是最合適的,但是我擔心就是第一次爬取沒問題,重復爬取的時候會造成資料冗余,實際上問答的題目權重是最大的,永遠不會變,其他資料會有更新字典繼續插入就行,就像簡易版的博客評論系統的存盤一樣,只是我操作起來沒有頭緒,不知道從哪里開始
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/194605.html
