文章目錄
- 免費算力,白嫖黨頂級薅羊毛!
- 一 阿里天池的使用篇
- 二 開啟我們在天池服務器的第一個專案: 火災濃煙與吸煙檢測
- 2.1 演示
- 2.2 介紹
- 三 模型訓練
- 四 天池端訓練
- 五 總結與技巧
- 六 總結
免費算力,白嫖黨頂級薅羊毛!
愁筆記本差,又買不起臺式機顯卡的同學,請注意啦!今天cv調包俠分享一下自己這幾天開始使用的阿里天池的免費GPU服務器,以及這篇文章介紹如何在天池的tesla p100 16gb顯存的服務器上訓練自己的深度學習視覺模型~我們以火災濃煙檢測為例子,
首先,大家可以看我Yolov5 吸煙檢測文章與baseline,傳送門,今天主要與大家分享一下國慶好禮~
國慶這幾天呆在家里,可不能白費了,花點時間鉆研一下新東西,我這幾天嘗試了百度AIstudio,Kaggle ,天池三個平臺的免費算力,百度的大家都比較熟悉了,可惜小菜雞不會paddle,又想跑自己的大模型,怎么辦,怎么辦,怎么辦???
| 平臺\ 資訊 | 顯卡 | 顯存 |
|---|---|---|
| 百度AIstudio | Nvidia Teslav100 | 16GB |
| 阿里 天池 | Nvidia Teslap100 | 16GB |
| Kaggle | Tesla K80 | 12GB |
算力來說,百度的較好~,但是對于我們想用pytorch 和tensorflow ,以及Paddle還沒入門的孩子來說,就建議來薅阿里天池的羊毛!因為Kaggle 速度很慢,
回到正題
一 阿里天池的使用篇
首先注冊并進入阿里云實驗室,

2、如何安裝、卸載、更新包?如遇錯誤怎么辦?
1)安裝包:pip install some_package --user
2)卸載包:部分包有依賴,無法卸載
3)更新包:pip install -U some_package –user
如果匯入程序出錯,建議嘗試重啟kernel或重繪頁面
3、如何切換GPU和CPU?

二 開啟我們在天池服務器的第一個專案: 火災濃煙與吸煙檢測
2.1 演示






2.2 介紹
本專案為基礎baseline ,資料為5000的香煙圖片與3000的火災圖片,為兩類別檢測(因為后續需要做校園等場景例外行為監控,所以將以前的吸煙檢測也加入進來了);
圖片如下(已放至公眾號:Deep AI 視界 公眾號回復:火災檢測):



三 模型訓練
先clone 我的專案:https://github.com/CVUsers/Fire-Detect-by-YoloV5(歡迎star~)
或者 git clone https://github.com/CVUsers/Fire-Detect-by-YoloV5.git
到本地進行除錯,跑通后再放到阿里云服務器加大模型直接跑~
然后公眾號 DeepAI 視界回復:火災檢測
會拿到一份8000張左右的圖片images.7z
解壓到data下,data下的目錄應為:
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-VBfQt1tS-1601784638378)(D:\CSDN\pic\天池\1601776984096.png)]](https://img.uj5u.com/2020/10/06/1267230601033212.png)
其中,train.txt ,labels,test.txt我已經給您寫好,不用重新制作資料,若是需要重新制作資料,請參考我的另一篇文章:
令將yolov5預訓練模型放至weights/下(我的網盤有)
需要注意的有幾點:
1:labels中名字要與images中的圖片名字對應(后綴不同),且要歸一化成:id, x,y,w,h;
2:修改data下的smoke.yaml 為如下(已為您修改)
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-8Ne93a96-1601784638379)(D:\CSDN\pic\天池\1601777255275.png)]](https://img.uj5u.com/2020/10/06/1267230601033213.png)
3:修改models/ yolov5x.yaml 中的類別為你的類別(已為您修改);
4:train的args修改batchsize等引數
四 天池端訓練
tips:您可以用小模型yolov5s進行測驗,跑一個迭代沒問題后,就可以改成yolov5x ;
然后將整個專案壓縮成壓縮包,進入阿里實驗室,打開notebook,點擊上傳檔案:
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-R0YZYCCl-1601784638381)(D:\CSDN\pic\天池\1601778097520.png)]](https://img.uj5u.com/2020/10/06/1267230601033214.png)
然后在notebook右側改成使用gpu:
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BIrVkCmS-1601784638385)(D:\CSDN\pic\天池\1601778143859.png)]](https://img.uj5u.com/2020/10/06/1267230601033215.png)
檢測是否為gpu環境:notebook左側+號,新建一個terminal,輸入nvidia-smi即可,若顯示16gb就是gpu環境,如是cpu環境,會顯示command not found
tips:若是由于自己操作失誤,gpu被程式誤占滿,停不下來,就在終端輸入 fuser -v .dev/nvidia* 看到占用顯卡的行程,然后kill 掉他的編號即可
現在開始解壓壓縮包,我是7z壓縮包(其他壓縮包命令請自查):
notebook中輸入:
!pip install py7zr
a = py7zr.SevenZipFile('./Fire-Detect-by-YoloV5','r')
a.extractall(path=r'./')
a.close()
print('over')
等待over(可能需要一些時間)后,雙擊解壓好的檔案夾進入專案
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ucfD6SpJ-1601784638388)(D:\CSDN\pic\天池\1601778826053.png)]](https://img.uj5u.com/2020/10/06/1267230601033216.png)
你可以左上角?加號,新建python3的ipynb檔案,然后輸入:
%load train.py
Tips 此時,將main中的一行修改一下(因為是notebook版的引數決議方式):
opt = parser.parse_args()改成
opt = parser.parse_known_args()[0]
當前的pytorch版本是符合我們專案要求的,你需要安裝一個opencv-python
終端輸入:
pip install opencv-python==3.4.2.17
然后在我們的train.py 代碼上按下shift+enter執行這個腳本,即可:
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kUIdBpOW-1601784638389)(D:\CSDN\pic\天池\1601779323817.png)]](https://img.uj5u.com/2020/10/06/1267230601033217.png)
此圖中,可看到模型引數分布與維度;一共是8.8*10^7次方引數
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-hkqpIIKG-1601784638396)(D:\CSDN\pic\天池\1601779473179.png)]](https://img.uj5u.com/2020/10/06/1267230601033218.png)
等待訓練結束,同時會將模型保存在weights/下
Tips:如果8小時的時長不夠用,8小時后停止了迭代,那就重啟實體,并修改train.py 的args中為:
–resume 這一行加一個default = True,將–weights的模型改成weights/last.pt ,然后執行
你就會發現,會繼續原有模型訓練~
然后訓練結束后,將模型中的best.pt 右鍵download到本地(在云端測驗也行,不過云端不能開攝像頭,可以測驗圖片和視頻),我以本地為例,將best.pt放到本地的weights/下,將detect.py 的引數:–source 改成0 運行即可,
if __name__ == '__main__':
check_git_status()
parser = argparse.ArgumentParser()
parser.add_argument('--cfg', type=str, default='models/yolov5s.yaml', help='model.yaml path')
parser.add_argument('--data', type=str, default='data/coco128.yaml', help='data.yaml path')
parser.add_argument('--hyp', type=str, default='', help='hyp.yaml path (optional)')
parser.add_argument('--epochs', type=int, default=300)
parser.add_argument('--batch-size', type=int, default=16)
parser.add_argument('--img-size', nargs='+', type=int, default=[640, 640], help='train,test sizes')
parser.add_argument('--rect', action='store_true', help='rectangular training')
parser.add_argument('--resume', nargs='?', const='get_last', default=False,
help='resume from given path/to/last.pt, or most recent run if blank.')
parser.add_argument('--nosave', action='store_true', help='only save final checkpoint')
parser.add_argument('--notest', action='store_true', help='only test final epoch')
parser.add_argument('--noautoanchor', action='store_true', help='disable autoanchor check')
parser.add_argument('--evolve', action='store_true', help='evolve hyperparameters')
parser.add_argument('--bucket', type=str, default='', help='gsutil bucket')
parser.add_argument('--cache-images', action='store_true', help='cache images for faster training')
parser.add_argument('--weights', type=str, default='', help='initial weights path')
parser.add_argument('--name', default='', help='renames results.txt to results_name.txt if supplied')
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
parser.add_argument('--multi-scale', action='store_true', help='vary img-size +/- 50%%')
parser.add_argument('--single-cls', action='store_true', help='train as single-class dataset')
opt = parser.parse_args()
cfg,data,weights:前面看過了是一定要傳的兩個參;
hyp:超引數,是指定一些超引數用的(學習率啥的);
epochs: 輪數,默認300,需要指定;
batch-size:一次喂多少資料,yolov5x 16gb顯存,資料量大只能開到12,所以可以不傳按默認16;
img-size: 訓練和測驗資料集的圖片尺寸(個人理解為解析度),默認640,640nargs='+' 表示引數可設定一個或多個;
rect: 只要加上’–rect’程式就會將rect設為true(應該是訓練時啟用矩形訓練);
resume: 斷開后繼續原有last.pt訓練;
notest:only test final epoch,僅在最后測驗,節省時間與資源(這樣訓練中間變化趨勢應該就看不到了);
evolve:進化超引數(hyp),可以試試,但是加了這個,原始碼那邊就不建議每次迭代完都保存模型了,可能是最后保存;
cache-images:cache images for faster training,加快訓練的,可以試試;
name:renames results.txt to results_name.txt if supplied;
device:cuda device, i.e. 0 or 0,1,2,3 or cpu,我這默認已經用了tesla p100了,不用改;
single-cls:train as single-class dataset,暫時沒用;
解釋一下result.png里都是啥:
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6Z2adUS9-1601784638398)(D:\CSDN\pic\天池\1601781211748.png)]](https://img.uj5u.com/2020/10/06/1267230601033219.png)
- GIoU:推測為GIoU損失函式均值,越小方框越準;
- Objectness:推測為目標檢測loss均值,越小目標檢測越準;
- Classification:推測為分類loss均值,越小分類越準;
- Precision:準確率(找對的/找到的);
- Recall:召回率(找對的/該找對的);
- mAP@0.5 & mAP@0.5:0.95:這里說的挺好,總之就是AP是用Precision和Recall作為兩軸作圖后圍成的面積,m表示平均,@后面的數表示判定iou為正負樣本的閾值,@0.5:0.95表示閾值取0.5:0.05:0.95后取均值,
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-vNKqqNRV-1601784638399)(D:\CSDN\pic\天池\1601784586318.png)]](https://img.uj5u.com/2020/10/06/1267230601033220.png)
五 總結與技巧
總的來說,這阿里天池的服務器比較方便,網路速度也可以,
我已經準備長期入駐阿里云天池實驗室,為以后去達摩院掃地做鋪墊–_--,叫:cv調包俠,歡迎來fork~
總結一下上文的所有tips:
敲黑板:
tips:您可以用小模型yolov5s進行測驗,跑一個迭代沒問題后,就可以改成yolov5x放到服務器訓練 ;
tips:若是由于自己操作失誤,gpu被程式誤占滿,停不下來,就在終端輸入 fuser -v .dev/nvidia* 看到占用顯卡的行程,然后kill 掉他的編號即可
tips:引數決議要修改如下:
opt = parser.parse_args()改成
opt = parser.parse_known_args()[0]
Tips:如果8小時的時長不夠用,8小時后停止了迭代,那就重啟實體,并修改train.py 的args中為:
--resume 這一行加一個default = True,將--weights的模型改成weights/last.pt ,然后執行
你就會發現,會繼續原有模型訓練~
tips:可以開多個賬號,在其他瀏覽器的頁面上訓練其他模型,
六 總結
歡迎關注個人公眾號:DeepAI 視界 公眾號回復火災檢測有好禮喲~

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/158408.html
標籤:java
上一篇:深度學習 計算機視覺成長競賽路線
