評論回復架構的mongoDB表設計，please... 救救可憐的孩子吧...-有解無憂

做爬蟲爬取了一些問答資料存盤在MongoDB資料庫，我的單個字典設計是:{"k1"："問答的題目"，"url":"檔案的鏈接地址"，"k2"："問答的時間"，"k3":"回答條數"，{"張三":"他的回答是.....","李四":"他的回答是.....","王五":"他的回答是....."}}，我的資料結構是這樣的，唯一不會變的就是k1和url，也就是問答的題目和問答檔案的鏈接地址不會變，其余的在任何時候任何人都會去評論，所以這個字典會定時更新，這樣具體該怎么做，資料怎么操作存盤，怎么操作查詢啊

uj5u.com熱心網友回復：

我看了需求，大概覺得應該滿足需求，供參考：

兩個表
問題資訊表
question_tbl (
qid 自動增加欄位
k1
url
)
回答資訊表
anwser_tbl (
aid 自動增加欄位
qid 問題表ID
anwser_name  回答人
anwser_comment 回答內容
anwser_time 回答時間
)

question_tbl   和  anwser_tbl 用 qid 關聯。
根據 anwser_tbl 里的qid  分組統計出k2(最后回答時間) , k3(數量）

uj5u.com熱心網友回復：

參考 1 樓陳年椰子的回復:

我看了需求，大概覺得應該滿足需求，供參考：

兩個表
問題資訊表
question_tbl (
qid 自動增加欄位
k1
url
)
回答資訊表
anwser_tbl (
aid 自動增加欄位
qid 問題表ID
anwser_name  回答人
anwser_comment 回答內容
anwser_time 回答時間
)

question_tbl   和  anwser_tbl 用 qid 關聯。
根據 anwser_tbl 里的qid  分組統計出k2(最后回答時間) , k3(數量）

你的這個思路我明白了，確實可以做到，但是實際我這資料量太大了，很多評論有70-80條，資料冗余量太大了，問答的條目也有幾十萬條，網上說問答型別資料用MongoDB存盤是最合適的，但是我擔心就是第一次爬取沒問題，重復爬取的時候會造成資料冗余，實際上問答的題目權重是最大的，永遠不會變，其他資料會有更新字典繼續插入就行，就像簡易版的博客評論系統的存盤一樣，只是我操作起來沒有頭緒，不知道從哪里開始

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/194605.html

標籤：腳本語言(Perl/Python)

上一篇：求大神看下這個問題怎么解決，本人Python小白, 萬分感謝！

下一篇：請教python代碼轉Matlab代碼的方法