
文章目錄
- 前文回顧
- Dask框架
- 使用Dask進行資料分析
- 不同之處
- 1、compute獲取計算結果
- 2、有些方法不支持所有引數
- 3、建議
- 搭建Dask并行計算方式
前文回顧
跟我一起學點資料分析 --第六天:資料可視化(seaborn部)
Dask框架
Dask是一款用于分析計算的靈活并行計算庫,
安裝啥的實在沒什么好講的,用的時候啊,這是個包,所以要直接匯入里面的模塊,碧如:import dask.dataframe
使用Dask進行資料分析
在資料分析程序中,dask的內核依舊是使用pandas,只是在其外部包裹了一層并行計算的框架,
import dask.dataframe as dd
df = dd.read_csv('movie.csv',assume_missing=True)
print(df.head(5).T)
這個程序中能會報錯,比如說沒有完全安裝,但是它會跟你說怎么完全安裝,
又比如說需要assume_missing這個引數,以前都沒見過,反正加上去就是了,
然后你就會發現,其實代碼跟pandas也沒什么太大的差別,
不同之處
1、compute獲取計算結果
import dask.dataframe as dd
df = dd.read_csv('movie.csv',assume_missing=True)
print(df.describe().compute())
你不信把compute去掉試試看它會出來什么玩意兒,
它會跟你說有多少個計算任務在等待,
2、有些方法不支持所有引數
這個就需要自己去發現了,比如說value_counts就不支持bins、sortby、normalize、ascending這些的,
3、建議
在計算大資料集的時候,建議先拿一小部分資料集進行基準測驗,
大概估摸一下時間,
搭建Dask并行計算方式
1、 在命令列下輸入pip install dask[complete] (如果已經安裝好這個庫了就會提示已經安裝好了)
庫是一定要安裝的,
2、命令列條件下, 輸入dask-scheduler,

3、看到TCP地址和埠號了嗎?
(查看任務管理器狀態:http://地址)
4、接下來啟動客戶端(再開個終端):dask-worker tcp://地址
如果要開多個客戶端的話,就改一下后面的埠號就行啦,
5、連接管理器后提交任務
import dask.dataframe as dd
from dask.distributed import Client
df = dd.read_csv('movie.csv',assume_missing=True)
client = Client(address='192.168.0.102:8786')
df.groupby('duration').duration.count().compute()
話不多說,我媽喊我去吃飯了,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/249522.html
標籤:其他
