python中的資料整理/清理-有解無憂

我是 Python 3 的初學者/中級人員，我想做一個需要使用大量資料的專案，但不知道提出問題的術語。

該專案將要求我獲取一個英語使用者會使用的所有單詞串列（使用羅馬字母，最好不要使用變音符號），并按它們的受歡迎程度（使用頻率）對它們進行排名，并將它們分類到某個表/資料庫中。

我的思考程序是使用 Google Ngram 進行流行度排名，但是我將如何獲得單詞串列？我不想下載字典，因為它不包含“yeeted”之類的詞（或任何在其下方帶有禁止的紅色波浪線的詞）。也許拿一本字典并刮一本城市字典，然后核對重復的？

另一個障礙是我將如何存盤這些資料。我會使用 XML 檔案，以便可以根據需要為每個單詞附加更多資料，還是在另一個 python 檔案中使用字典/表格？及時處理此類資料是我的程式中的一個重要因素，并且需要在 3-5 分鐘的時間內對資料集進行 4-16 次查詢。這是一個我完全一無所知的領域。

對任何問題的任何反饋都會非常有幫助。我是一個 20 多歲的人，所以為精煉資料集支付 400 美元不是一種選擇，但更便宜的解決方案會起作用。

uj5u.com熱心網友回復：

我在不和諧的聊天中發布了這個，并收到了以下信件以供參考。

Nightly Lights — 今天下午 1:09 不確定您從哪里獲取資料，但將其存盤在......資料庫中是有意義的，因為您可能要處理數十（數百？）數千個單詞

點——今天下午 1:10 是的，那是在 SQL 中還是有解決方案將它存盤在程式運行的檔案中？我想 SQL 會使事情復雜化本地目錄檔案*

Nightly Lights — 今天下午 1:11 不完全確定我是否理解問題，但 Sqlite 非常簡單如果您需要從資料庫獲得更多性能，則必須使用 mysql 或 postgres 獨立運行 Sqlite 將資料庫存盤在與您的程式相鄰的檔案以及您選擇的位置，但它通常在您的 python 東西旁邊將單詞串列存盤在 Python 檔案本身中是非入門 imo

Dot — 今天下午 1:12 Fs 您認為 JSON 或 XML 可能是一個可用的選項嗎？

Nightly Lights — 今天下午 1:14 理論上是的，但是資料庫能夠更好地處理任意查詢和更新

點 — 今天下午 1:14 我看到

Nightly Lights — 今天下午 1:14 可能會更快（資料庫）

Dot — 今天下午 1:14 好的，所以 SQlite 它是關于如何獲取單詞串列的任何接受者？我可以解決另一個問題的排名

zn — 今天下午 1:16，您的解決方案聽起來不錯，結合了知名詞典和城市詞典單詞串列

點 — 今天下午 1:16 好的 Lmao

zn — 今天下午 1:16 https://github.com/mattbierner/urban-dictionary-word-list GitHub GitHub - mattbierner/urban-dictionary-word-list: 腳本和示例 ... 腳本和示例資料集城市詞典條目名稱（總共約 140 萬個） - GitHub - mattbierner/urban-dictionary-word-list: 所有城市詞典條目的腳本和示例資料集...

你可以使用他寫的這個腳本

Dot — 今天下午 1:17 ooOOoo 草屁股，我的意思是 gracias

夜間燈光 — 今天下午 1:17 Lmao

點 — 今天下午 1:17 140 萬

zn — 今天下午 1:17，repo 中的當前串列已過時，因此您需要自己運行腳本來更新它

Sunn — 今天下午 1:17 https://en.wikipedia.org/wiki/Lists_of_English_words 也許廢棄這些頁面英語單詞串列以下文章列出了具有某些共同特征的英語單詞。

點 — 今天下午 1:17 圖片

Sunn — 今天下午 1:17 也http://www.mieliestronk.com/corncob_lowercase.txt

Nightly Lights — 今天下午 1:18 至于排名，你不能把每個單詞的所有出現次數加起來，然后按總和排序

Sunn — 今天下午 1:18 然后你可以https://books.google.com/ngrams/json?content=Churchill,Stalin&year_start=1800&year_end=2000&corpus=26&smoothing=3

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/415163.html

標籤：

上一篇：ScrapyValueErrorf'Missingschemeinrequest

下一篇：在JSONPOST中處理“TypeError：'NoneType'物件不可下標”