【机器视觉案例】(5) AI视觉,手势调节物体尺寸,附python完整代码
各位同學好,今天和大家分享一下如何使用opencv+mediapipe完成遠程手勢調節圖片尺寸的案例。先放張圖看效果。當拇指和食指豎起時,根據食指間的連線的長度自由縮放圖片尺寸。圖片的中點始終位于指尖連線的中點。16代表FPS值
這里需要用到mediapipe中的手部關鍵點檢測方法,并且需要判斷哪根手指是彎下的,哪根手指是翹起來的。手部關鍵點檢測方法有不明白的可以看我之前的一篇文章:【MediaPipe】(1) AI視覺,手部關鍵點實時跟蹤,附python完整代碼_立同學的博客-CSDN博客,判斷哪個手指朝上的方法在后面的章節會介紹。
1. 導入工具包
# 安裝工具包
pip install opencv-contrib-python # 安裝opencv
pip install mediapipe # 安裝mediapipe
# pip install mediapipe --user #有user報錯的話試試這個
pip install cvzone # 安裝cvzone# 導入工具包
import cv2
from cvzone.HandTrackingModule import HandDetector # 手部追蹤方法
import mediapipe as mp
import time
21個手部關鍵點信息如下,本節我們主要研究食指指尖"8"的坐標信息。
2. 手部關鍵點檢測
(1) cvzone.HandTrackingModule.HandDetector()??是手部關鍵點檢測方法
參數:
mode: 默認為 False,將輸入圖像視為視頻流。它將嘗試在第一個輸入圖像中檢測手,并在成功檢測后進一步定位手的坐標。在隨后的圖像中,一旦檢測到所有 maxHands 手并定位了相應的手的坐標,它就會跟蹤這些坐標,而不會調用另一個檢測,直到它失去對任何一只手的跟蹤。這減少了延遲,非常適合處理視頻幀。如果設置為 True,則在每個輸入圖像上運行手部檢測,用于處理一批靜態的、可能不相關的圖像。
maxHands: 最多檢測幾只手,默認為?2
detectionCon: 手部檢測模型的最小置信值(0-1之間),超過閾值則檢測成功。默認為 0.5
minTrackingCon: 坐標跟蹤模型的最小置信值 (0-1之間),用于將手部坐標視為成功跟蹤,不成功則在下一個輸入圖像上自動調用手部檢測。將其設置為更高的值可以提高解決方案的穩健性,但代價是更高的延遲。如果 mode 為 True,則忽略這個參數,手部檢測將在每個圖像上運行。默認為 0.5
它的參數和返回值類似于官方函數 mediapipe.solutions.hands.Hands()
(2)cvzone.HandTrackingModule.HandDetector.findHands() ? ?找到手部關鍵點并繪圖
參數:
img: 需要檢測關鍵點的幀圖像,格式為BGR
draw: 是否需要在原圖像上繪制關鍵點及識別框
flipType: 圖像是否需要翻轉,當視頻圖像和我們自己不是鏡像關系時,設為True就可以了
返回值:
hands: 檢測到的手部信息,包含:21個關鍵點坐標,檢測框坐標及寬高,檢測框中心坐標,檢測出是哪一只手。
img: 返回繪制了關鍵點及連線后的圖像
代碼如下
# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector # 手部追蹤方法
import time#(1)獲取攝像頭信息
cap = cv2.VideoCapture(0) # 0代表電腦自帶的攝像頭
cap.set(3, 1280) # 設置顯示框的寬
cap.set(4, 720) # 設置顯示框的高pTime = 0 # 處理第一幀圖像的起始時間#(2)獲取手部檢測方法,傳入參數,手部最小檢測置信度0.8,最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)#(3)處理每一幀圖像
while True:# 返回是否讀取成功,已經讀取的幀圖像success, img = cap.read()#(4)檢測手部信息# 返回每只手的檢測框信息hands,以及繪制后的手部圖像hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉圖像,上面以及翻轉過了# 打印檢測到的是左手還是右手,以及關鍵點的像素坐標print(hands)#(5)展示視頻圖像# 計算fpscTime = time.time() # 處理每一幀圖像所需的時間fps = 1/(cTime-pTime)pTime = cTime # 更新處理下一幀圖像的起始時間# 把fps值顯示在圖像上,img畫板,顯示字符串,顯示的坐標位置,字體,字體大小,顏色,線條粗細cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)# 顯示圖像,輸入窗口名及圖像數據# cv2.namedWindow("img", 0) # 窗口大小可手動調整cv2.imshow('img', img) if cv2.waitKey(20) & 0xFF==27: #每幀滯留20毫秒后消失,ESC鍵退出break# 釋放視頻資源
cap.release()
cv2.destroyAllWindows()
打印某一幀中檢測到的手部信息,lmList 代表每只手的21個手部關鍵點坐標;bbox?代表檢測框的左上角坐標,以及檢測框的寬和高;center 代表檢測框的中心坐標;type 代表檢測出是哪一只手。
----------------------------------------------------
[{'lmList': [[1214, 809], [1111, 806], [1024, 769], [983, 732], [939, 727], [972, 576], [896, 461], [851, 392], [810, 331], [1052, 528], [985, 393], [943, 310], [905, 237], [1145, 514], [1109, 376], [1081, 289], [1052, 214], [1247, 525], [1256, 407], [1254, 332], [1245, 262]],
'bbox': (810, 214, 446, 595),
'center': (1033, 511),
'type': 'Right'},
{'lmList': [[174, 753], [329, 742], [469, 707], [589, 687], [695, 674], [451, 519], [539, 414], [596, 358], [653, 311], [394, 480], [488, 365], [558, 299], [628, 249], [321, 459], [409, 347], [481, 286], [555, 243], [232, 450], [293, 350], [348, 291], [411, 242]],
'bbox': (174, 242, 521, 511),
'center': (434, 497),
'type': 'Left'}]
----------------------------------------------------
顯示結果如圖:
3. 確定縮放方法
首先,我們通過 cv2.imread() 導入需要縮放的圖像,img[0:180, 0:320] = img1,先把圖像顯示在視頻幀圖像的固定位置。
確定縮放方法的思路是,如果檢測到兩只手,并且這兩只手是拇指和食指朝上,那么檢測到的第一幀時的兩只手的食指尖之間的距離,作為初始距離 startDist = length,接下去圖片在這個初始距離的基礎上進行縮放。如果檢測的手消失,那么就重置初始距離 startDist = None,將下一次檢測到的指尖距離作為初始值。
通過 detector.findHands() 方法來檢測哪個手指朝上,傳入參數是每只手的所有關鍵點坐標。返回值是由0和1組成的長度為5的列表,0代表該手指彎曲,1代表該手指朝上。我們需要得到的是[1,1,0,0,0],即拇指和食指朝上,其他手指彎曲。
通過 detector.findDistance() 方法來檢測某兩個關鍵點之間的距離。length, info, img ?= distance = detector.findDistance(lmList1[8], lmList2[8], img), 返回值: length 代表兩個關鍵點之間的距離,info 是一個6個元素組成的列表,包含關鍵點之間連線的起點、終點、中點坐標。img 是繪制連線后的圖像。
因此,我們在上述代碼中補充。
# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector # 手部追蹤方法
import time#(1)獲取攝像頭信息
cap = cv2.VideoCapture(0) # 0代表電腦自帶的攝像頭
cap.set(3, 1280) # 設置顯示框的寬
cap.set(4, 720) # 設置顯示框的高pTime = 0 # 處理第一幀圖像的起始時間#(2)獲取手部檢測方法,傳入參數,手部最小檢測置信度0.8,最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)startDist = None # 設置一個初始距離#(3)處理每一幀圖像
while True:# 返回是否讀取成功,已經讀取的幀圖像success, img = cap.read() #(4)檢測手部信息# 返回每只手的檢測框信息hands,以及繪制后的手部圖像hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉圖像#(5)導入需要調節的圖片,圖像的(w,h)為[1280,720] img1 = cv2.imread('C:\\GameDownload\\Deep Learning\\TF2.jpg')# 由于我導入的圖像太大了,這里把它縮小一下img1 = cv2.resize(img1, (320,180))# 把這張圖片放在屏幕的固定位置,先指定h再指定w, 即img[h,w]img[0:180, 0:320] = img1# 放大和縮小步驟:當兩只手的拇指和食指豎起,其他指彎下,那么就執行放大和縮小#(6)如果檢測到有兩只手,進行放大縮小的操作if len(hands) == 2:# 檢測手指是否朝上的,hands[0]代表第一只手,hands[1]代表第二只手print('which up:', detector.fingersUp(hands[0]), detector.fingersUp(hands[1]))# 返回值是[1,1,0,0,0]代表一只手中拇指和食指豎起,其他指都沒有豎起if detector.fingersUp(hands[0]) == [1,1,0,0,0] and detector.fingersUp(hands[1]) == [1,1,0,0,0]:# 通過兩只手食指的關鍵點之間的距離來縮放圖片lmList1 = hands[0]['lmList'] # 第一只手的關鍵點坐標信息,hands是一個字典lmList2 = hands[1]['lmList'] # 第二只手的關鍵點坐標信息# 第一次檢測到食指間的距離if startDist is None:# 計算食指間的距離并繪圖;食指的關鍵點索引是8;返回值:連線長度,連線的信息(起點、終點、中點坐標),繪制后的圖像length, info, img = distance = detector.findDistance(lmList1[8], lmList2[8], img)# print('length',length,'info',info)# 檢測到的第一幀的食指間的距離作為初始距離,接下來超過這個長度就放大,小于這個長度就縮小startDist = length# 第一幀檢測到距離之后,接下來變動的距離就是用于縮放圖片大小length, info, img = distance = detector.findDistance(lmList1[8], lmList2[8], img)# 計算變化量,正數代表放大,負數代表縮小scale = length - startDistprint('scale:',scale)# 如果兩只手中至少有一只消失了,重置初始距離else:startDist = None#(7)展示視頻圖像# 計算fpscTime = time.time() # 處理每一幀圖像所需的時間fps = 1/(cTime-pTime)pTime = cTime # 更新處理下一幀圖像的起始時間# 把fps值顯示在圖像上,img畫板,顯示字符串,顯示的坐標位置,字體,字體大小,顏色,線條粗細cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)# 顯示圖像,輸入窗口名及圖像數據# cv2.namedWindow("img", 0) # 窗口大小可手動調整cv2.imshow('img', img) if cv2.waitKey(20) & 0xFF==27: #每幀滯留20毫秒后消失,ESC鍵退出break# 釋放視頻資源
cap.release()
cv2.destroyAllWindows()
打印某幾幀的結果,數字1代表該指時朝上的,0代表該指是彎著的。scale代表食指間的距離。
----------------------------------------------
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: 225.00591450309486
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: 18.837911081298728
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: -30.173165115569134
which up: [1, 1, 0, 0, 0] [1, 1, 0, 0, 0]
scale: -28.422575826465106
-----------------------------------------------
顯示結果如圖,需要改變尺寸的圖片暫時位于左上方,當拇指和食指朝上時繪制指尖連線,并計算連線長度。
4. 按比例縮放圖片
info中存放指尖連線的起點、終點、中點坐標,其中?cx, cy = info[4:]?代表連線中點的坐標。現在讓圖片的中點落在指尖連線的中點上,使圖片的位置隨手指位置而實時發生變化。
在計算中點時用到 newH//2 和 newW//2 ,這時候需要保證新的寬和高能被2整除。否則在執行?img[cy - newH//2:cy + newH//2, cx - newW//2:cx + newW//2] = img1 時,屏幕上劃分給圖片的shape和圖片自身的shape不一致,從而導致程序報錯。因此在執行之前,通過int(((h1+scale)//2)*2) 和 int(((w1+scale)//2)*2)? ,提前使寬高能被整除。如果是奇數除以2,也只是忽略了一個像素,不會有影響。
當我們把圖片放的過大,或圖像坐標出現負數時,程序會拋出異常不能執行,因此使用 try,except 方法,當遇到異常就執行except中的內容,這里是pass,直接跳過;沒發出異常就正常運行try中的內容。
因此,在上述代碼中補充。
# 遠程手勢縮放物體尺寸
import cv2
from cvzone.HandTrackingModule import HandDetector # 手部追蹤方法
import time#(1)獲取攝像頭信息
cap = cv2.VideoCapture(0) # 0代表電腦自帶的攝像頭
cap.set(3, 1280) # 設置顯示框的寬
cap.set(4, 720) # 設置顯示框的高pTime = 0 # 處理第一幀圖像的起始時間#(2)獲取手部檢測方法,傳入參數,手部最小檢測置信度0.8,最多檢測2只手
detector = HandDetector(detectionCon=0.8, maxHands=2)startDist = None # 設置一個初始距離scale = 0 # 設置一個初始的需要縮放的大小cx, cy = 200, 200 # 確定初始的圖像中心點在屏幕上的顯示位置#(3)處理每一幀圖像
while True:# 返回是否讀取成功,已經讀取的幀圖像success, img = cap.read() # 翻轉圖像,保證攝像機畫面和人的動作是鏡像# img = cv2.flip(img, flipCode=1) #0豎直翻轉,1水平翻轉#(4)檢測手部信息# 返回每只手的檢測框信息hands,以及繪制后的手部圖像hands, img = detector.findHands(img, draw=True, flipType=True) # fliptype代表是否翻轉圖像#(5)導入需要調節的圖片,圖像的(w,h)為[1280,720] img1 = cv2.imread('C:\\GameDownload\\Deep Learning\\TF2.jpg')# 由于我導入的圖像太大了,這里把它縮小一下img1 = cv2.resize(img1, (320,180))# 把這張圖片放在屏幕的固定位置,先指定h再指定w, 即img[h,w]# img[0:180, 0:320] = img1# 放大和縮小步驟:當兩只手的拇指和食指豎起,其他指彎下,那么就執行放大和縮小#(6)如果檢測到有兩只手,進行放大縮小的操作if len(hands) == 2:# 檢測手指是否朝上的,hands[0]代表第一只手,hands[1]代表第二只手# print('which up:', detector.fingersUp(hands[0]), detector.fingersUp(hands[1]))# 返回值是[1,1,0,0,0]代表一只手中拇指和食指豎起,其他指都沒有豎起if detector.fingersUp(hands[0]) == [1,1,0,0,0] and detector.fingersUp(hands[1]) == [1,1,0,0,0]:# 通過兩只手食指的關鍵點之間的距離來縮放圖片lmList1 = hands[0]['lmList'] # 第一只手的關鍵點坐標信息,hands是一個字典lmList2 = hands[1]['lmList'] # 第二只手的關鍵點坐標信息# 第一次檢測到食指間的距離if startDist is None:# 計算食指間的距離并繪圖;食指的關鍵點索引是8;返回值:連線長度,連線的信息(起點、終點、中點坐標),繪制后的圖像length, info, img = distance = detector.findDistance(lmList1[8], lmList2[8], img)# print('length',length,'info',info)# 檢測到的第一幀的食指間的距離作為初始距離,接下來超過這個長度就放大,小于這個長度就縮小startDist = length# 第一幀檢測到距離之后,接下來變動的距離就是用于縮放圖片大小length, info, img = distance = detector.findDistance(lmList1[8], lmList2[8], img)# 計算變化量,正數代表放大,負數代表縮小。scale的變化范圍過大,除以2使它變化緩慢一些scale = (length - startDist) // 2#(7)按比例縮放圖像# 獲取食指連線的中心點坐標,用于實時改變圖像的位置cx, cy = info[4:] # info是一個列表索引4和5存放中心點坐標# 如果兩只手中至少有一只消失了,重置初始距離else:startDist = Nonetry: # 用于處理異常,因為一旦縮放的區間變成負數,就會報錯# 確定需要縮放的圖像的寬高h1, w1, _ = img1.shape # 獲取原始圖像的寬高# 如果scale是奇數,那么計算結果不能被2整除,使得img中的空出的位置的shape和img1的shape不一樣# newH, newW = h1+scale, w1+scale newH, newW = int(((h1+scale)//2)*2), int(((w1+scale)//2)*2) # 改變原圖像的shape,先指定寬,后指定高img1 = cv2.resize(img1, (newW, newH))# 實時改變圖像的位置,使圖像中心點隨著食指間的連線的中點的位置變化# 確保newH和newW可以被2整除,不然重組后的img中的shape和img1的shape不同img[cy - newH//2:cy + newH//2, cx - newW//2:cx + newW//2] = img1 # 先指定高,再指定寬except: # 如果報錯了的話上面try的內容不起作用pass#(7)展示視頻圖像# 計算fpscTime = time.time() # 處理每一幀圖像所需的時間fps = 1/(cTime-pTime)pTime = cTime # 更新處理下一幀圖像的起始時間# 把fps值顯示在圖像上,img畫板,顯示字符串,顯示的坐標位置,字體,字體大小,顏色,線條粗細cv2.putText(img, str(int(fps)), (30,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)# 顯示圖像,輸入窗口名及圖像數據# cv2.namedWindow("img", 0) # 窗口大小可手動調整cv2.imshow('img', img) if cv2.waitKey(1) & 0xFF==27: #每幀滯留1毫秒后消失,ESC鍵退出break# 釋放視頻資源
cap.release()
cv2.destroyAllWindows()
顯示結果如下:
總結
以上是生活随笔為你收集整理的【机器视觉案例】(5) AI视觉,手势调节物体尺寸,附python完整代码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【网络爬虫】(1) 网络请求,urlli
- 下一篇: 【机器视觉案例】(6) AI视觉,距离测