本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
以下文章來源于Python中文社區 ,作者:Alan
Python分析抖音用戶行為資料視頻講解地址
https://www.bilibili.com/video/BV1yp4y1q7ZC/

2020年最熱門的Python庫有哪些?規則很簡單,我們正在尋找的庫滿足以下條件:
- 它于2020年推出或普及,
- 自發布以來,一直得到很好的維護,
- 它非常酷,您應該使用一下它,
免責宣告:我們的選擇在很大程度上受機器學習/資料科學庫的影響,盡管其中某些庫確實對非資料科學人士也同樣受用,此外,盡管我們有10個主要選擇,但我們還是決定增加一個新的“榮譽提名”部分,以便對我們發現但不能遺漏的其他第三方庫一個公道,
因此,事不宜遲,讓我們開始吧,
1、Typer
https://github.com/tiangolo/typer
您不一定總是需要撰寫 CLI 應用程式,但這樣做可以省不少事,在 FastAPI(https://fastapi.tiangolo.com/) 取得巨大成功之后,tiangolo (https://twitter.com/tiangolo) 使用了相同的原理為我們帶來了 Typer:一個新的庫,使您可以利用Python 3.6+的型別提示功能來撰寫命令列界面,
該設計的確使Typer脫穎而出,除了確保代碼已正確記錄之外,您還可以輕松進行CLI界面的驗證,通過使用型別提示,您可以在Python編輯器(如VS Code)中獲得自動補全功能,這將提高您的生產率,
為了增強其功能,Typer內核是基于Click(https://click.palletsprojects.com/en/7.x/)的,而Click則是眾所周知,并且經過了嚴格的測驗,這意味著它可以利用其所有好處,如社區和插件,同時以更少的樣板代碼從簡單開始,并根據需要變得復雜,
Typer檔案(https://typer.tiangolo.com/)確實很有幫助,并且應該成為其他專案的典范,絕對不能錯過!
2. Rich
https://github.com/willmcgugan/rich
順著CLI的主題,誰說終端應用程式必須是純白色,或者如果您是真正的黑客,則必須是綠色,是黑色?
是否要在終端輸出中添加顏色和樣式?毫不費力地顯示漂亮的進度條?Markdown?表情符號?Rich可以實作上述所有功能,查看下面示例截圖可以進一步了解:
Rich 絕對是一個可以將使用終端應用程式的體驗提升到全新水平的庫,
3. Dear PyGui
https://github.com/hoffstadt/DearPyGui
盡管如我們所見,終端應用程式可以很漂亮,但有時還不夠,您需要一個真正的GUI,目前流行的Dear ImGui C ++專案(https://github.com/ocornut/imgui)的Python分支Dear PyGui正是為此而誕生,
Dear PyGui利用了在視頻游戲中廣為流行的即時模式范例(immediate mode paradigm),這基本上意味著動態GUI是逐幀獨立繪制的,無需保留任何資料,這使得該工具與其他Python GUI框架有著根本不同,它具有高性能,并使用計算機的GPU來促進高度動態界面的構建,這在工程,仿真,游戲或資料科學應用程式中經常用到,
Dear PyGui可以在沒有陡峭的學習曲線的情況下使用,并且可以在Windows 10(DirectX 11),Linux(OpenGL 3)和MacOS(Metal)上運行,
4. PrettyErrors
https://github.com/onelivesleft/PrettyErrors
大道至簡,這是一個值得讓您思考的庫:以前沒人想過這是怎么回事?
PrettyErrors只做一件事并且做得很好,在支持彩色輸出的終端中,它將隱秘的堆疊軌跡轉換成更適合用微弱的人眼決議的東西,無需再掃描整個螢屏來查找例外的原因……您現在就可以一目了然!
5. Diagrams
https://github.com/mingrammer/diagrams
我們程式員喜歡用代碼解決問題,但是有時,我們需要向其他同事解釋復雜的架構設計,傳統上,我們使用GUI工具,在其中我們可以處理圖表和可視化以放入演示文稿和檔案,但這不是唯一的方法,
Diagrams使您無需任何設計工具即可直接在Python代碼中繪制云系統架構,它包含的圖示支持多個云提供商(包括AWS,Azure,GCP),這使創建箭頭和組非常容易,真的,只有幾行代碼!
基于代碼的圖表的最好之處是什么?您可以通過git使用版本控制來掌控進度!
6. Hydra 和 OmegaConf
https://hydra.cc/
https://github.com/omry/omegaconf
在進行機器學習專案的研究和實驗時,總是有無數的設定可以嘗試,在非平凡解的應用程式中,配置管理會變得相當復雜,非常快,有一種結構化的方式來處理這種復雜性不是很好嗎?
Hydra是一種工具,可讓您以可組合的方式構建配置,并從命令列或組態檔覆寫某些部分,
為了說明可以通過該庫簡化的一些常見任務,假設有一個我們正在嘗試的模型的基本體系結構,以及它的多種變體,使用Hydra,可以定義基本配置,然后運行多個作業,并進行以下更改:
python train_model.py variation=option_a,option_b
├── variation
│ ├── option_a.yaml
│ └── option_b.yaml
├── base.yaml
└── train_model.py
Hydra 的表親 OmegaConf 為分層配置系統的基礎提供了一致的API,并支持YAML,組態檔,物件和CLI引數等不同來源,
這是21世紀進行配置管理的必備條件!
7. PyTorch Lightning
https://github.com/PyTorchLightning/PyTorch-lightning
每一種提高資料科學團隊生產力的工具都值得鼓勵,沒有理由讓從事資料科學專案的人每次都重新發明輪子,反復思考如何更好地組織其專案中的代碼,使用維護得不好的“ PyTorch 樣板”,或者使用更高級別的抽象功能,
PyTorch Lightning 通過將科學與工程分離而有助于提高生產率,從某種意義上說,它使您的代碼更簡潔,有點像 TensorFlow 的 Keras,但是它仍然是PyTorch,您可以訪問所有常用的API,
該庫可幫助團隊利用圍繞組織的軟體工程的良好實踐和明確的組件職責來構建可輕松擴展,以在多個GPU,TPU和CPU上進行訓練高質量代碼,
一個可以幫助資料科學團隊的初級成員產生更好結果的庫,但是,由于整體生產力的提高,而且沒有放棄控制權,更有經驗的成員會喜歡它,
8. Hummingbird
https://github.com/microsoft/hummingbird
并非所有的機器學習都是深度學習,通常,您的模型由scikit-learn中實作的更傳統的演算法(例如,Random Forest)組成,或者您使用諸如流行的LightGBM和XGBoost之類的梯度增強方法,
但是,深度學習領域正在發生許多進步,像PyTorch這樣的框架正在以驚人的速度發展,并且硬體設備已經過優化,可以更快地運行張量計算并降低功耗,如果我們可以利用所有這些作業來更快、更高效地運行傳統方法,那豈不是很好嗎?
這是Hummingbird的用武之地,微軟提供的這個新庫可以將訓練有素的傳統ML模型編譯為張量計算,這很棒,因為它使您無需重新設計模型,
到目前為止,Hummingbird支持轉換為PyTorch,TorchScript,ONNX和TVM,以及各種ML模型和矢量化器,推理API也與Sklearn范例非常相似,可讓您重用現有代碼,但將實作更改為Hummingbird生成的代碼,這是一個值得關注的工具,因為它獲得了對模式模型和格式的支持!
9. HiPlot
https://github.com/facebookresearch/hiplot
幾乎每個資料科學家在職業生涯中的某個時候都曾處理過高維資料,不幸的是,人腦沒有足夠的連線直觀地處理這種資料,因此我們必須訴諸其他技術,
今年初,Facebook發布了HiPlot,這是一個庫,可使用并行繪圖和其他圖形方式來表示資訊,從而幫助發現高維資料中的相關性和模式,該概念已在其發布博客文章中進行了解釋,但基本上,它是一種可視化和過濾高維資料的好方法,
HiPlot具有互動性,可擴展性,您可以從標準Jupyter筆記本電腦或通過其自己的服務器使用它,
10. Scalene
https://github.com/emeryberger/scalene
隨著Python庫生態系統變得越來越復雜,我們發現自己正在撰寫越來越多的依賴C擴展和多執行緒的代碼,在衡量性能時,這成為一個問題,因為CPython內置的探查器無法正確處理多執行緒和本機代碼,
那就是Scalene進行救援的時候,Scalene是用于Python腳本的CPU和記憶體探查器,能夠正確處理多執行緒代碼并區分運行Python和本機代碼所花費的時間,無需修改代碼,只需要在命令列中使用scalene運行腳本,腳本就會為您生成文本或HTML報告,顯示代碼每一行的CPU和記憶體使用情況,
榮譽提名:
- Norfair
https://github.com/tryolabs/norfair
Norfair是一個可定制的輕量級Python庫,用于實時2D物件跟蹤,使用Norfair,您只需幾行代碼就可以為任何檢測器添加跟蹤功能,
- quart
https://gitlab.com/pgjones/quart/
一個兼容Flask API的異步Web框架,一些現有的Flask擴展程式甚至可以直接使用!
- alibi-detect
https://github.com/SeldonIO/alibi-detect
監視生產模型中的例外值和分布漂移,以獲取表格資料,文本,影像和時間序列,
- einops
https://github.com/arogozhnikov/einops
einops于2020年普及,可讓您撰寫張量操作以獲得可讀且可靠的代碼,并支持numpy,PyTorch,TensorFlow等,
- stanza
https://github.com/stanfordnlp/stanza
斯坦福提供的支持60多種語言的自然語言處理工具,針對不同任務的多個可用的預訓練模型,
- datasets
https://github.com/huggingface/datasets
來自HuggingFace的輕量級可擴展庫,可輕松共享和訪問資料集和自然語言處理(NLP)等評估指標
- pytorch-forecasting
https://github.com/jdb78/pytorch-forecasting
借助神經網路簡化了針對實際案例和研究的時間序列預測,
- sktime
https://github.com/alan-turing-institute/sktime
提供了專用的時間序列演算法和scikit-learn兼容工具,用于構建,調整和評估組合模型,還要檢查其配套的sktime-dl軟體包,以獲取基于深度學習的模型,
- netron
https://github.com/lutzroeder/netron
神經網路,深度學習和機器學習模型的可視化工具,支持的格式比我所知道的還要多,
- pycaret
https://github.com/pycaret/pycaret
包裝了幾個常見的ML庫,使您的作業效率大大提高,節省了數百行代碼,
- tensor-sensor
https://github.com/parrt/tensor-sensor
通過改善錯誤訊息并提供可視化效果,幫助您正確確定張量數學的尺寸,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/246736.html
標籤:Python
