跟我一起學點資料分析 --第七天：Dask并行計算框架-有解無憂

在這里插入圖片描述

文章目錄

- 前文回顧
- Dask框架
- 使用Dask進行資料分析
- 不同之處
- - 1、compute獲取計算結果
  - 2、有些方法不支持所有引數
  - 3、建議
- 搭建Dask并行計算方式

前文回顧

跟我一起學點資料分析 --第六天：資料可視化（seaborn部）

Dask框架

Dask是一款用于分析計算的靈活并行計算庫，

安裝啥的實在沒什么好講的，用的時候啊，這是個包，所以要直接匯入里面的模塊，碧如：import dask.dataframe

使用Dask進行資料分析

在資料分析程序中，dask的內核依舊是使用pandas，只是在其外部包裹了一層并行計算的框架，

import dask.dataframe as dd

df = dd.read_csv('movie.csv',assume_missing=True)

print(df.head(5).T)

這個程序中能會報錯，比如說沒有完全安裝，但是它會跟你說怎么完全安裝，
又比如說需要assume_missing這個引數，以前都沒見過，反正加上去就是了，

然后你就會發現，其實代碼跟pandas也沒什么太大的差別，

不同之處

1、compute獲取計算結果

import dask.dataframe as dd

df = dd.read_csv('movie.csv',assume_missing=True)

print(df.describe().compute())

你不信把compute去掉試試看它會出來什么玩意兒，
它會跟你說有多少個計算任務在等待，

2、有些方法不支持所有引數

這個就需要自己去發現了，比如說value_counts就不支持bins、sortby、normalize、ascending這些的，

3、建議

在計算大資料集的時候，建議先拿一小部分資料集進行基準測驗，
大概估摸一下時間，

搭建Dask并行計算方式

1、在命令列下輸入pip install dask[complete] （如果已經安裝好這個庫了就會提示已經安裝好了）
庫是一定要安裝的，

2、命令列條件下，輸入dask-scheduler，
在這里插入圖片描述

3、看到TCP地址和埠號了嗎？
（查看任務管理器狀態：http://地址）

4、接下來啟動客戶端（再開個終端）：dask-worker tcp://地址
如果要開多個客戶端的話，就改一下后面的埠號就行啦，

5、連接管理器后提交任務

import dask.dataframe as dd

from dask.distributed import Client

df = dd.read_csv('movie.csv',assume_missing=True)

client = Client(address='192.168.0.102:8786')

df.groupby('duration').duration.count().compute()

話不多說，我媽喊我去吃飯了，

在這里插入圖片描述

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/249522.html

標籤：其他

上一篇：解決Nacos國內下載速度緩慢的問題

下一篇：Clion配置VS2019(MSVC)與MinGW（親測有效，快來愉快的寫C語言吧）