Python 是一個很棒的語言,它是世界上發展最快的編程語言之一,它一次又一次地證明了在開發人員職位中和跨行業的資料科學職位中的實用性,整個 Python 及其庫的生態系統使它成為全世界用戶(初學者和高級用戶)的合適選擇,它的成功和流行的原因之一是它強大的第三方庫的集合,這些庫使它可以保持活力和高效,
在本文中,我們會研究一些用于資料科學任務的 Python 庫,而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫,盡管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中經常出現的,但是了解這個領域中的其它 Python 產品總是很有好處的,
Wget
從網路上提取資料是資料科學家的重要任務之一,Wget 是一個免費的實用程式,可以用于從網路上下載非互動式的檔案,它支持 HTTP、HTTPS 和 FTP 協議,以及通過 HTTP 的代理進行檔案檢索,由于它是非互動式的,即使用戶沒有登錄,它也可以在后臺作業,所以下次當你想要下載一個網站或者一個頁面上的所有圖片時,wget 可以幫助你,
安裝:
$ pip install wget
例子:
import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532 filename 'razorback.mp3' ### Pendulum
對于那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很適合你,它是一個簡化日期時間操作的 Python 包,它是 Python 原生類的簡易替代,請參閱檔案深入學習,
安裝:
$ pip install pendulum
例子:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') print(dt_vancouver.diff(dt_toronto).in_hours()) 3
imbalanced-learn
可以看出,當每個類的樣本數量基本相同時,大多數分類演算法的效果是最好的,即需要保持資料平衡,但現實案例中大多是不平衡的資料集,這些資料集對機器學習演算法的學習階段和后續預測都有很大影響,幸運的是,這個庫就是用來解決此問題的,它與 scikit-learn 兼容,是 scikit-lear-contrib 專案的一部分,下次當你遇到不平衡的資料集時,請嘗試使用它,
安裝:
pip install -U imbalanced-learn # 或者 conda install -c conda-forge imbalanced-learn
例子:
使用方法和例子請參考檔案,使用方法和例子請參考檔案,更多Python庫和Python學習教程視頻可以點擊這里進入Python交流圈領取
FlashText
在 NLP 任務中,清理文本資料往往需要替換句子中的關鍵字或從句子中提取關鍵字,通常,這種操作可以使用正則運算式來完成,但是如果要搜索的術語數量達到數千個,這就會變得很麻煩,Python 的 FlashText 模塊是基于 FlashText 演算法為這種情況提供了一個合適的替代方案,FlashText 最棒的一點是,不管搜索詞的數量如何,運行時間都是相同的,你可以在這里了解更多內容,
安裝:
$ pip install flashtext
例子:
提取關鍵字
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(<unclean name>, <standardised name>) keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area') keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') keywords_found ['New York', 'Bay Area']
替換關鍵字
keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.' Fuzzywuzzy
這個庫的名字聽起來很奇怪,但是在字串匹配方面,fuzzywuzzy 是一個非常有用的庫,可以很方便地實作計算字串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同資料庫中的記錄,
安裝:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzz from fuzzywuzzy import process # 簡單匹配度 fuzz.ratio("this is a test", "this is a test!") 97 # 模糊匹配度 fuzz.partial_ratio("this is a test", "this is a test!") 100
更多有趣例子可以在 GitHub 倉庫找到,
PyFlux
時間序列分析是機器學習領域中最常見的問題之一,PyFlux 是 Python 中的一個開源庫,它是為處理時間序列問題而構建的,該庫擁有一系列優秀的現代時間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型,簡而言之,PyFlux 為時間序列建模提供了一種概率方法,值得嘗試一下,
安裝
pip install pyflux
例子
詳細用法和例子請參考官方檔案,
Ipyvolume
結果展示也是資料科學中的一個重要方面,能夠將結果進行可視化將具有很大優勢,IPyvolume 是一個可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點圖等)的 Python 庫,并且只需要少量配置,但它目前還是 1.0 之前的版本階段,用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對于三維陣列就像 matplotlib 的 imshow 對于二維陣列一樣好用,可以在這里獲取更多,
使用 pip
$ pip install ipyvolume
使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
例子
- 影片

- 體繪制

Dash
Dash 是一個高效的用于構建 web 應用程式的 Python 框架,它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的,系結了很多比如下拉框、滑動條和圖表的現代 UI 元素,你可以直接使用 Python 代碼來寫相關分析,而無需再使用 javascript,Dash 非常適合構建資料可視化應用程式,然后,這些應用程式可以在 web 瀏覽器中呈現,用戶指南可以在這里獲取,
安裝
pip install dash==0.29.0 # 核心 dash 后端 pip install dash-html-components==0.13.2 # HTML 組件 pip install dash-core-components==0.36.0 # 增強組件 pip install dash-table==3.1.3 # 互動式 DataTable 組件(最新!)
例子下面的例子展示了一個具有下拉功能的高度互動式圖表,當用戶在下拉選單中選擇一個值時,應用程式代碼將動態地將資料從 Google Finance 匯出到 panda DataFrame,

Gym
OpenAI 的 Gym 是一款用于增強學習演算法的開發和比較工具包,它兼容任何數值計算庫,如 TensorFlow 或 Theano,Gym 庫是測驗問題集合的必備工具,這個集合也稱為環境 —— 你可以用它來開發你的強化學習演算法,這些環境有一個共享介面,允許你進行通用演算法的撰寫,
安裝
pip install gym
例子這個例子會運行CartPole-v0環境中的一個實體,它的時間步數為 1000,每一步都會渲染整個場景,
總結
以上這些有用的資料科學 Python 庫都是我精心挑選出來的,不是常見的如 numpy 和 pandas 等庫,如果你知道其它庫,可以添加到串列中來,請在下面的評論中提一下,另外別忘了先嘗試運行一下它們,
這里給大家推薦一套最新的Python企業級專案實戰案例,這套案例主要是針對于沒有專案經驗的初學者,能夠讓初學者接觸到企業級專案,從而積累專案經驗,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/188878.html
標籤:Python
上一篇:while單回圈練習
下一篇:爬蟲知識點個人整理
