Python 擁有海量的包,無論是普通任務還是復雜任務,我們經常在應用程式中使用大量的工具包,本文我將討論一些常被低估的資料科學包,包括:資料清理、應用程式開發和除錯方面,

1、Faker
生產環境通常具有實時資料,把它放到測驗環境中并不容易,我們必須對從生產到測驗環境的資料進行標記化,這通常會將資料轉換為亂碼,
此外,在欺詐行業,我們需要找出欺詐身份,為了生成假PII(個人可識別資訊),我使用了一個名為Faker的包,這是一個很酷的軟體包,可以讓你創建一個帶有地址、名字等的假PII,

以上是一些虛假資料的例子,帶有 GAN 假影像的假資料可以給出一個真實的人,
2、Pywebio
我們知道 Flask 適用于 Python 端的表單、UI 和 restapi,然而,如果想要一個簡單的表單,Flask就不太適用了,通常用 Pywebio 來創建,它會創建了一個簡單、干凈的UI,所有的代碼都是用普通的python撰寫的,并且我們不用額外學新東西!
# A simple script to calculate BMI
from pywebio.input import input, FLOAT
from pywebio.output import put_text
def bmi():
height = input("Input your height(cm):", type=FLOAT)
weight = input("Input your weight(kg):", type=FLOAT)
BMI = weight / (height / 100) ** 2
top_status = [(16, 'Severely underweight'), (18.5, 'Underweight'),
(25, 'Normal'), (30, 'Overweight'),
(35, 'Moderately obese'), (float('inf'), 'Severely obese')]
for top, status in top_status:
if BMI <= top:
put_text('Your BMI: %.1f. Category: %s' % (BMI, status))
break
if __name__ == '__main__':
bmi()

在幾秒鐘內,它轉換為一個前端 UI 網頁,我們還可以撰寫一些會話并處理輸入和輸出,查看他們的檔案以獲取詳細資訊,
3、Airflow
Airflow 是我最喜歡的軟體包之一,它是一種作業流管理工具,在 MLOPS 中經常被低估和較少使用,它還可以用于特定的執行間隔、重新訓練模型、批處理、網站抓取、投資組合跟蹤、自定義新聞提要等,
在作業流程方面,選項是無限的,它還可以連接到特定服務的云服務商,代碼可以用 python 寫,在 UI 上可以看到執行,非常棒,作業流也可以按特定時間間隔進行安排,
4、Loguru
Logger 是我討厭但又不得不使用的工具,它是除錯應用程式的最佳方法之一,但是,logger 里面的日志太多了,讓人比較煩,而 Loguru 在某種程度上就比較友好,它雖不能解決所有挑戰,但是它很容易添加日志陳述句并為其添加更多除錯,
from loguru import logger
logger.debug("That's it, beautiful and simple logging!")
它還有助于拆分檔案并執行清理,因此我們不需要查看所有歷史日志,
logger.add("file_1.log", rotation="500 MB") # Automatically rotate too big file
logger.add("file_2.log", rotation="12:00") # New file is created each day at noon
logger.add("file_3.log", rotation="1 week") # Once the file is too old, it's rotated
logger.add("file_X.log", retention="10 days") # Cleanup after some time
logger.add("file_Y.log", compression="zip") # Save some loved space
你還可以使用引數 backtrace 來回溯執行,
簡而言之,在生產環境中使用這個包來除錯應用程式或 AI 模型訓練是值得的,
5、Pydash
通常在資料清洗或處理中,我們要處理大量的資料清洗,這些是一些較小的專案,需要時間,例如,如何展平串列?當然,你可以寫一個清單,但是如果有一個快速功能來執行這些操作呢?
這就是Pydash閃耀的地方,它成為了我的快速轉到庫,其中包含一系列python實用程式,

以上只是一個小例子,它包含很多功能,絕對值得一看,
6、Weights & Biases
WANDB是跟蹤和可視化機器學習管道最有用的包之一,我最喜歡的部分是他們的central dashboard,它類似于記錄器,但可以做更多的事情,


它易于使用,并集成了最流行的庫,如 Tensorflow、PyTorch、fastai、huggingface 等,但是,在商業領域使用它時有一些限制,你必須付費訂閱,除此之外,它是一個很棒的庫,
7、PyCaret
在R中我最喜歡的一個包是caret 包,當我看到 PyCaret 包時,我很興奮,因為它簡化了許多編碼,當你想快速做某件事情時可以使用,這個包有很多關于默認引數的選項,可以用不同的度量點運行不同的模型,

Summary
正如本文所說的,我們看到在應用程式開發或資料分析中使用了不同的包,這并不是一份詳盡的清單,我會繼續為大家分享更多的實用的工具包,如果你有使用任何其他經常未低估的軟體包,可以在評論中告訴我,
技術交流
歡迎轉載、收藏本文,碼字不易,有所識訓點贊支持一下!
為方便進行學習交流,本號開通了技術交流群,添加方式如下:
直接添加小助手微信號:pythoner666,備注:CSDN+python,或者按照如下方式添加均可!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/287392.html
標籤:python
上一篇:用python實作csdn博主全部博文下載,html轉pdf,有了學習的電子書了。。。(附原始碼)
下一篇:Java 給圖片加 文字水印
