大佬們,請問對英文文本進行分詞的時候,如何保留特定的名詞,比如:I do not like the United States. 如果正常分詞,就會把the United States分成3個詞,顯然不是我想要的結果。
望大佬不吝賜教,留下python實作的程序,感謝!
uj5u.com熱心網友回復:
你想要的是怎么個結果,舉個例子,大家可能才會明白怎么去幫你,反正我沒有理解題主的意思是想要怎么樣的分詞?是一個字母一個字母分?還是一個全拼的單詞分,還是一個完整的詞組來分?uj5u.com熱心網友回復:
感謝提醒,我想把I do not like the United States分成,"I", "do", "not", "like", "the United States"。
就是相對于一些特有名詞,比如supply chain management, the United States,這類詞不要分成一個一個的單詞,而是保留下來。
uj5u.com熱心網友回復:
嗯,你提的這個具體的比較好分詞,比如空格分割然后使用目的字串拼接,但我覺得因該不是你想要得。如果是很多個字串的話,要使用通用方法來分得話,可以參考這個博客https://blog.csdn.net/journeyend/article/details/79346338?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/250324.html
下一篇:matlab識別線纜缺陷
