各位同學好，今天和大家分享一下如何使用opencv+mediapipe完成遠程手勢調節圖片尺寸的案例，先放張圖看效果，當拇指和食指豎起時，根據食指間的連線的長度自由縮放圖片尺寸，圖片的中點始終位于指尖連線的中點，16代表FPS值

這里需要用到mediapipe中的手部關鍵點檢測方法，并且需要判斷哪根手指是彎下的，哪根手指是翹起來的，手部關鍵點檢測方法有不明白的可以看我之前的一篇文章：【MediaPipe】(1) AI視覺，手部關鍵點實時跟蹤，附python完整代碼_立同學的博客-CSDN博客，判斷哪個手指朝上的方法在后面的章節會介紹，

1. 匯入工具包

# 安裝工具包
pip install opencv-contrib-python  # 安裝opencv
pip install mediapipe  # 安裝mediapipe
# pip install mediapipe --user  #有user報錯的話試試這個
pip install cvzone  # 安裝cvzone
 
# 匯入工具包
import cv2
from cvzone.HandTrackingModule import HandDetector  # 手部追蹤方法
import mediapipe as mp
import time

21個手部關鍵點資訊如下，本節我們主要研究食指指尖"8"的坐標資訊，

2. 手部關鍵點檢測

（1） cvzone.HandTrackingModule.HandDetector() 是手部關鍵點檢測方法

引數：

mode： 默認為 False，將輸入影像視為視頻流，它將嘗試在第一個輸入影像中檢測手，并在成功檢測后進一步定位手的坐標，在隨后的影像中，一旦檢測到所有 maxHands 手并定位了相應的手的坐標，它就會跟蹤這些坐標，而不會呼叫另一個檢測，直到它失去對任何一只手的跟蹤，這減少了延遲，非常適合處理視頻幀，如果設定為 True，則在每個輸入影像上運行手部檢測，用于處理一批靜態的、可能不相關的影像，

maxHands： 最多檢測幾只手，默認為 2

detectionCon： 手部檢測模型的最小置信值（0-1之間），超過閾值則檢測成功，默認為 0.5

minTrackingCon： 坐標跟蹤模型的最小置信值 (0-1之間)，用于將手部坐標視為成功跟蹤，不成功則在下一個輸入影像上自動呼叫手部檢測，將其設定為更高的值可以提高解決方案的穩健性，但代價是更高的延遲，如果 mode 為 True，則忽略這個引數，手部檢測將在每個影像上運行，默認為 0.5

它的引數和回傳值類似于官方函式 mediapipe.solutions.hands.Hands()

（2）cvzone.HandTrackingModule.HandDetector.findHands() 找到手部關鍵點并繪圖

引數：

img： 需要檢測關鍵點的幀影像，格式為BGR

draw： 是否需要在原影像上繪制關鍵點及識別框

flipType： 影像是否需要翻轉，當視頻影像和我們自己不是鏡像關系時，設為True就可以了

回傳值：

hands： 檢測到的手部資訊，包含：21個關鍵點坐標，檢測框坐標及寬高，檢測框中心坐標，檢測出是哪一只手，

img： 回傳繪制了關鍵點及連線后的影像

代碼如下

# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector  # 手部追蹤方法
import time

#（1）獲取攝像頭資訊
cap = cv2.VideoCapture(0)  # 0代表電腦自帶的攝像頭
cap.set(3, 1280)  # 設定顯示框的寬 
cap.set(4, 720)   # 設定顯示框的高

pTime = 0  # 處理第一幀影像的起始時間

#（2）獲取手部檢測方法，傳入引數，手部最小檢測置信度0.8，最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)

#（3）處理每一幀影像
while True:
    
    # 回傳是否讀取成功，已經讀取的幀影像
    success, img = cap.read()
    
    #（4）檢測手部資訊
    # 回傳每只手的檢測框資訊hands，以及繪制后的手部影像
    hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉影像，上面以及翻轉過了
    
    # 列印檢測到的是左手還是右手，以及關鍵點的像素坐標
    print(hands)

    #（5）展示視頻影像
    # 計算fps
    cTime = time.time()  # 處理每一幀影像所需的時間
    fps = 1/(cTime-pTime)
    pTime = cTime  # 更新處理下一幀影像的起始時間

    # 把fps值顯示在影像上,img畫板,顯示字串,顯示的坐標位置,字體,字體大小,顏色,線條粗細
    cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)
    
    # 顯示影像，輸入視窗名及影像資料
    # cv2.namedWindow("img", 0)  # 視窗大小可手動調整
    cv2.imshow('img', img)    
    if cv2.waitKey(20) & 0xFF==27:  #每幀滯留20毫秒后消失，ESC鍵退出
        break

# 釋放視瞥澩
cap.release()
cv2.destroyAllWindows()

列印某一幀中檢測到的手部資訊，lmList 代表每只手的21個手部關鍵點坐標；bbox 代表檢測框的左上角坐標，以及檢測框的寬和高；center 代表檢測框的中心坐標；type 代表檢測出是哪一只手，

----------------------------------------------------
[{'lmList': [[1214, 809], [1111, 806], [1024, 769], [983, 732], [939, 727], [972, 576], [896, 461], [851, 392], [810, 331], [1052, 528], [985, 393], [943, 310], [905, 237], [1145, 514], [1109, 376], [1081, 289], [1052, 214], [1247, 525], [1256, 407], [1254, 332], [1245, 262]], 
'bbox': (810, 214, 446, 595), 
'center': (1033, 511), 
'type': 'Right'}, 
{'lmList': [[174, 753], [329, 742], [469, 707], [589, 687], [695, 674], [451, 519], [539, 414], [596, 358], [653, 311], [394, 480], [488, 365], [558, 299], [628, 249], [321, 459], [409, 347], [481, 286], [555, 243], [232, 450], [293, 350], [348, 291], [411, 242]], 
'bbox': (174, 242, 521, 511), 
'center': (434, 497), 
'type': 'Left'}]
----------------------------------------------------

顯示結果如圖：

3. 確定縮放方法

首先，我們通過 cv2.imread() 匯入需要縮放的影像，img[0:180, 0:320] = img1，先把影像顯示在視頻幀影像的固定位置，

確定縮放方法的思路是，如果檢測到兩只手，并且這兩只手是拇指和食指朝上，那么檢測到的第一幀時的兩只手的食指尖之間的距離，作為初始距離 startDist = length，接下去圖片在這個初始距離的基礎上進行縮放，如果檢測的手消失，那么就重置初始距離 startDist = None，將下一次檢測到的指尖距離作為初始值，

通過 detector.findHands() 方法來檢測哪個手指朝上，傳入引數是每只手的所有關鍵點坐標，回傳值是由0和1組成的長度為5的串列，0代表該手指彎曲，1代表該手指朝上，我們需要得到的是[1,1,0,0,0]，即拇指和食指朝上，其他手指彎曲，

通過 detector.findDistance() 方法來檢測某兩個關鍵點之間的距離，length, info, img = distance = detector.findDistance(lmList1[8], lmList2[8], img)，回傳值： length 代表兩個關鍵點之間的距離，info 是一個6個元素組成的串列，包含關鍵點之間連線的起點、終點、中點坐標，img 是繪制連線后的影像，

因此，我們在上述代碼中補充，

# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector  # 手部追蹤方法
import time

#（1）獲取攝像頭資訊
cap = cv2.VideoCapture(0)  # 0代表電腦自帶的攝像頭
cap.set(3, 1280)  # 設定顯示框的寬 
cap.set(4, 720)   # 設定顯示框的高

pTime = 0  # 處理第一幀影像的起始時間

#（2）獲取手部檢測方法，傳入引數，手部最小檢測置信度0.8，最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)

startDist = None  # 設定一個初始距離

#（3）處理每一幀影像
while True:
    
    # 回傳是否讀取成功，已經讀取的幀影像
    success, img = cap.read()    
    
    #（4）檢測手部資訊
    # 回傳每只手的檢測框資訊hands，以及繪制后的手部影像
    hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉影像
    
    #（5）匯入需要調節的圖片，影像的(w,h)為[1280,720]  
    img1 = cv2.imread('C:\\GameDownload\\Deep Learning\\TF2.jpg')
    # 由于我匯入的影像太大了，這里把它縮小一下
    img1 = cv2.resize(img1, (320,180))
    # 把這張圖片放在螢屏的固定位置，先指定h再指定w, 即img[h,w]
    img[0:180, 0:320] = img1
    
    # 放大和縮小步驟：當兩只手的拇指和食指豎起，其他指彎下，那么就執行放大和縮小
    #（6）如果檢測到有兩只手，進行放大縮小的操作
    if len(hands) == 2:
        
        # 檢測手指是否朝上的，hands[0]代表第一只手，hands[1]代表第二只手
        print('which up:', detector.fingersUp(hands[0]), detector.fingersUp(hands[1]))
        # 回傳值是[1,1,0,0,0]代表一只手中拇指和食指豎起，其他指都沒有豎起
        if detector.fingersUp(hands[0]) == [1,1,0,0,0] and detector.fingersUp(hands[1]) == [1,1,0,0,0]:
            
            # 通過兩只手食指的關鍵點之間的距離來縮放圖片
            lmList1 = hands[0]['lmList']  # 第一只手的關鍵點坐標資訊，hands是一個字典
            lmList2 = hands[1]['lmList']  # 第二只手的關鍵點坐標資訊
            
            # 第一次檢測到食指間的距離
            if startDist is None:
                
                # 計算食指間的距離并繪圖；食指的關鍵點索引是8；回傳值：連線長度，連線的資訊(起點、終點、中點坐標)，繪制后的影像
                length, info, img  = distance = detector.findDistance(lmList1[8], lmList2[8], img)
                # print('length',length,'info',info)
                
                # 檢測到的第一幀的食指間的距離作為初始距離，接下來超過這個長度就放大，小于這個長度就縮小
                startDist = length
            
            # 第一幀檢測到距離之后，接下來變動的距離就是用于縮放圖片大小
            length, info, img  = distance = detector.findDistance(lmList1[8], lmList2[8], img)
            
            # 計算變化量，正數代表放大，負數代表縮小
            scale = length - startDist
            print('scale:',scale)
            
    # 如果兩只手中至少有一只消失了，重置初始距離
    else:
        startDist = None
            
    #（7）展示視頻影像
    # 計算fps
    cTime = time.time()  # 處理每一幀影像所需的時間
    fps = 1/(cTime-pTime)
    pTime = cTime  # 更新處理下一幀影像的起始時間

    # 把fps值顯示在影像上,img畫板,顯示字串,顯示的坐標位置,字體,字體大小,顏色,線條粗細
    cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)
    
    # 顯示影像，輸入視窗名及影像資料
    # cv2.namedWindow("img", 0)  # 視窗大小可手動調整
    cv2.imshow('img', img)    
    if cv2.waitKey(20) & 0xFF==27:  #每幀滯留20毫秒后消失，ESC鍵退出
        break

# 釋放視瞥澩
cap.release()
cv2.destroyAllWindows()

列印某幾幀的結果，數字1代表該指時朝上的，0代表該指是彎著的，scale代表食指間的距離，

----------------------------------------------
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: 225.00591450309486
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: 18.837911081298728
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: -30.173165115569134
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: -28.422575826465106
-----------------------------------------------

顯示結果如圖，需要改變尺寸的圖片暫時位于左上方，當拇指和食指朝上時繪制指尖連線，并計算連線長度，

4. 按比例縮放圖片

info中存放指尖連線的起點、終點、中點坐標，其中 cx, cy = info[4:] 代表連線中點的坐標，現在讓圖片的中點落在指尖連線的中點上，使圖片的位置隨手指位置而實時發生變化，

在計算中點時用到 newH//2 和 newW//2 ，這時候需要保證新的寬和高能被2整除，否則在執行 img[cy - newH//2:cy + newH//2, cx - newW//2:cx + newW//2] = img1 時，螢屏上劃分給圖片的shape和圖片自身的shape不一致，從而導致程式報錯，因此在執行之前，通過int(((h1+scale)//2)*2) 和 int(((w1+scale)//2)*2) ，提前使寬高能被整除，如果是奇數除以2，也只是忽略了一個像素，不會有影響，

當我們把圖片放的過大，或影像坐標出現負數時，程式會拋出例外不能執行，因此使用 try，except 方法，當遇到例外就執行except中的內容，這里是pass，直接跳過；沒發出例外就正常運行try中的內容，

因此，在上述代碼中補充，

# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector  # 手部追蹤方法
import time

#（1）獲取攝像頭資訊
cap = cv2.VideoCapture(0)  # 0代表電腦自帶的攝像頭
cap.set(3, 1280)  # 設定顯示框的寬 
cap.set(4, 720)   # 設定顯示框的高

pTime = 0  # 處理第一幀影像的起始時間


#（2）獲取手部檢測方法，傳入引數，手部最小檢測置信度0.8，最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)

startDist = None  # 設定一個初始距離

scale = 0  # 設定一個初始的需要縮放的大小

cx, cy = 200, 200  # 確定初始的影像中心點在螢屏上的顯示位置

#（3）處理每一幀影像
while True:
    
    # 回傳是否讀取成功，已經讀取的幀影像
    success, img = cap.read()    
    
    # 翻轉影像，保證攝像機畫面和人的動作是鏡像
    # img = cv2.flip(img, flipCode=1)  #0豎直翻轉，1水平翻轉
    
    
    #（4）檢測手部資訊
    # 回傳每只手的檢測框資訊hands，以及繪制后的手部影像
    hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉影像
    

    #（5）匯入需要調節的圖片，影像的(w,h)為[1280,720]  
    img1 = cv2.imread('C:\\GameDownload\\Deep Learning\\TF2.jpg')
    # 由于我匯入的影像太大了，這里把它縮小一下
    img1 = cv2.resize(img1, (320,180))
    # 把這張圖片放在螢屏的固定位置，先指定h再指定w, 即img[h,w]
    # img[0:180, 0:320] = img1
    
    # 放大和縮小步驟：當兩只手的拇指和食指豎起，其他指彎下，那么就執行放大和縮小
    #（6）如果檢測到有兩只手，進行放大縮小的操作
    if len(hands) == 2:
        
        # 檢測手指是否朝上的，hands[0]代表第一只手，hands[1]代表第二只手
        # print('which up:', detector.fingersUp(hands[0]), detector.fingersUp(hands[1]))
        # 回傳值是[1,1,0,0,0]代表一只手中拇指和食指豎起，其他指都沒有豎起
        if detector.fingersUp(hands[0]) == [1,1,0,0,0] and detector.fingersUp(hands[1]) == [1,1,0,0,0]:
            
            # 通過兩只手食指的關鍵點之間的距離來縮放圖片
            lmList1 = hands[0]['lmList']  # 第一只手的關鍵點坐標資訊，hands是一個字典
            lmList2 = hands[1]['lmList']  # 第二只手的關鍵點坐標資訊
            
            # 第一次檢測到食指間的距離
            if startDist is None:
                
                # 計算食指間的距離并繪圖；食指的關鍵點索引是8；回傳值：連線長度，連線的資訊(起點、終點、中點坐標)，繪制后的影像
                length, info, img  = distance = detector.findDistance(lmList1[8], lmList2[8], img)
                # print('length',length,'info',info)
                
                # 檢測到的第一幀的食指間的距離作為初始距離，接下來超過這個長度就放大，小于這個長度就縮小
                startDist = length
            
            # 第一幀檢測到距離之后，接下來變動的距離就是用于縮放圖片大小
            length, info, img  = distance = detector.findDistance(lmList1[8], lmList2[8], img)
            
            # 計算變化量，正數代表放大，負數代表縮小，scale的變化范圍過大，除以2使它變化緩慢一些
            scale = (length - startDist) // 2
            
            #（7）按比例縮放影像
            # 獲取食指連線的中心點坐標，用于實時改變影像的位置
            cx, cy = info[4:]  # info是一個串列索引4和5存放中心點坐標
            
    # 如果兩只手中至少有一只消失了，重置初始距離
    else:
        startDist = None
    
    
    try:  # 用于處理例外，因為一旦縮放的區間變成負數，就會報錯
        # 確定需要縮放的影像的寬高
        h1, w1, _ = img1.shape  # 獲取原始影像的寬高
        # 如果scale是奇數，那么計算結果不能被2整除，使得img中的空出的位置的shape和img1的shape不一樣
        # newH, newW = h1+scale, w1+scale  
        newH, newW = int(((h1+scale)//2)*2), int(((w1+scale)//2)*2)  
        
        # 改變原影像的shape，先指定寬，后指定高
        img1 = cv2.resize(img1, (newW, newH))
        
        # 實時改變影像的位置，使影像中心點隨著食指間的連線的中點的位置變化
        # 確保newH和newW可以被2整除，不然重組后的img中的shape和img1的shape不同
        img[cy - newH//2:cy + newH//2, cx - newW//2:cx + newW//2] = img1  # 先指定高，再指定寬
    
    except:  # 如果報錯了的話上面try的內容不起作用
        pass

    #（7）展示視頻影像
    # 計算fps
    cTime = time.time()  # 處理每一幀影像所需的時間
    fps = 1/(cTime-pTime)
    pTime = cTime  # 更新處理下一幀影像的起始時間

    # 把fps值顯示在影像上,img畫板,顯示字串,顯示的坐標位置,字體,字體大小,顏色,線條粗細
    cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)
    
    # 顯示影像，輸入視窗名及影像資料
    # cv2.namedWindow("img", 0)  # 視窗大小可手動調整
    cv2.imshow('img', img)    
    if cv2.waitKey(1) & 0xFF==27:  #每幀滯留1毫秒后消失，ESC鍵退出
        break

# 釋放視瞥澩
cap.release()
cv2.destroyAllWindows()

顯示結果如下：

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/397514.html

標籤：其他

上一篇：集成學習讓你的模型更快更準