想請教各位大神關于一個操作的實作:
舉個例子,現在設定幾組關鍵詞構成一個詞庫:
顏色類別的,紅色,黑色,白色
尺寸類別的,長的,短的,寬的
質量類別的,結實,晃動
我手里有一個陳述句“我想要個紅色的寬的桌子,結實一點”
把這個陳述句在關鍵詞庫里過一遍,就可以出來類別詞頻,顏色一次,尺寸一次,質量一次
我想實作的:
比如我現在有一個含上千條陳述句的文本檔案,然后想在一個關鍵詞類別達幾十種的詞庫里跑一遍,最終得到類別的詞頻分布
請問這種功能可實作嗎?
在希望效率最高的情況下(僅用一個文本檔案和一個詞庫檔案)該如何實作呢?
uj5u.com熱心網友回復:
實作肯定可以,關鍵是效率問題:1.不停的字串替換,求替換前后的長度差就是某個類中某一專案的詞頻
2.不停的正則,查找到的串列長度就是某個專案的詞頻
3.jieba分詞,但不一定能得到你這些類別中專案
uj5u.com熱心網友回復:
對于3,倒可以試試添加自定義字典uj5u.com熱心網友回復:
這個可以使用re+Counder可以輕易實作。用re匹配每個關鍵字,然后Counder統計詞頻,結合map+異步應該可以高速完成轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/38574.html
上一篇:原反補計算
下一篇:Python貝葉斯網路
