我是 Python 3 的初學者/中級人員,我想做一個需要使用大量資料的專案,但不知道提出問題的術語。
該專案將要求我獲取一個英語使用者會使用的所有單詞串列(使用羅馬字母,最好不要使用變音符號),并按它們的受歡迎程度(使用頻率)對它們進行排名,并將它們分類到某個表/資料庫中。
我的思考程序是使用 Google Ngram 進行流行度排名,但是我將如何獲得單詞串列?我不想下載字典,因為它不包含“yeeted”之類的詞(或任何在其下方帶有禁止的紅色波浪線的詞)。也許拿一本字典并刮一本城市字典,然后核對重復的?
另一個障礙是我將如何存盤這些資料。我會使用 XML 檔案,以便可以根據需要為每個單詞附加更多資料,還是在另一個 python 檔案中使用字典/表格?及時處理此類資料是我的程式中的一個重要因素,并且需要在 3-5 分鐘的時間內對資料集進行 4-16 次查詢。這是一個我完全一無所知的領域。
對任何問題的任何反饋都會非常有幫助。我是一個 20 多歲的人,所以為精煉資料集支付 400 美元不是一種選擇,但更便宜的解決方案會起作用。
uj5u.com熱心網友回復:
我在不和諧的聊天中發布了這個,并收到了以下信件以供參考。
Nightly Lights — 今天下午 1:09 不確定您從哪里獲取資料,但將其存盤在......資料庫中是有意義的,因為您可能要處理數十(數百?)數千個單詞
點——今天下午 1:10 是的,那是在 SQL 中還是有解決方案將它存盤在程式運行的檔案中?我想 SQL 會使事情復雜化本地目錄檔案*
Nightly Lights — 今天下午 1:11 不完全確定我是否理解問題,但 Sqlite 非常簡單如果您需要從資料庫獲得更多性能,則必須使用 mysql 或 postgres 獨立運行 Sqlite 將資料庫存盤在與您的程式相鄰的檔案以及您選擇的位置,但它通常在您的 python 東西旁邊 將單詞串列存盤在 Python 檔案本身中是非入門 imo
Dot — 今天下午 1:12 Fs 您認為 JSON 或 XML 可能是一個可用的選項嗎?
Nightly Lights — 今天下午 1:14 理論上是的,但是資料庫能夠更好地處理任意查詢和更新
點 — 今天下午 1:14 我看到
Nightly Lights — 今天下午 1:14 可能會更快(資料庫)
Dot — 今天下午 1:14 好的,所以 SQlite 它是關于如何獲取單詞串列的任何接受者?我可以解決另一個問題的排名
zn — 今天下午 1:16,您的解決方案聽起來不錯,結合了知名詞典和城市詞典單詞串列
點 — 今天下午 1:16 好的 Lmao
zn — 今天下午 1:16 https://github.com/mattbierner/urban-dictionary-word-list GitHub GitHub - mattbierner/urban-dictionary-word-list: 腳本和示例 ... 腳本和示例資料集城市詞典條目名稱(總共約 140 萬個) - GitHub - mattbierner/urban-dictionary-word-list: 所有城市詞典條目的腳本和示例資料集...
你可以使用他寫的這個腳本
Dot — 今天下午 1:17 ooOOoo 草屁股,我的意思是 gracias
夜間燈光 — 今天下午 1:17 Lmao
點 — 今天下午 1:17 140 萬
zn — 今天下午 1:17,repo 中的當前串列已過時,因此您需要自己運行腳本來更新它
Sunn — 今天下午 1:17 https://en.wikipedia.org/wiki/Lists_of_English_words 也許廢棄這些頁面 英語單詞串列 以下文章列出了具有某些共同特征的英語單詞。
點 — 今天下午 1:17 圖片
Sunn — 今天下午 1:17 也http://www.mieliestronk.com/corncob_lowercase.txt
Nightly Lights — 今天下午 1:18 至于排名,你不能把每個單詞的所有出現次數加起來,然后按總和排序
Sunn — 今天下午 1:18 然后你可以https://books.google.com/ngrams/json?content=Churchill,Stalin&year_start=1800&year_end=2000&corpus=26&smoothing=3
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/415163.html
標籤:
