近年來,隨著機器人研究的不斷發展,需要機器人實作的功能越來越多,對應的行為也越來越復雜,簡單的運動控制已經不能滿足需求,尤其是對于一些不易獲取運動規律的任務,傳統控制方法根本無法實作,這要求機器人具備更高的學習能力,可以與環境形成動態互動以應對未知情況,

Ananalytical diabolo model for robotic learning and control
原文鏈接:https://ieeexplore.ieee.org/abstract/document/9561578
利用機器學習可以解決解決機器人應用問題,即可以在傳統方法失效時找到有效策略完成任務,機器學習演算法可以分為三大類:有監督學習、無監督學習和強化學習,其中強化學習往往被用來處理復雜的決策任務,但是往往決策空間巨大,強化學習需要不斷地試錯,因此樣本復雜度往往很高,從而限制強化學習在一些場景的應用,

Ananalytical diabolo model for robotic learning and control
原文鏈接:https://ieeexplore.ieee.org/abstract/document/9561578
而強化學習的一個分支-模仿學習則是直接從專家樣本中學習,由于有比較高質量的決策行為資料,模仿學習(Imitation Learning)被認為是可以降低樣本復雜度的一個手段,模仿學習又被稱作示教學習(Learning from Demenstration),通過示教者的動作和編碼回歸得到一條優化的機器人軌跡,模仿學習時示教者根據任務要求進行軌跡示教,并通過相應的方式記錄示教軌跡,
模仿學習可以分為以下程序:人類進行示教,機器人獲取示教軌跡資料,利用學習模型進行理解,得到控制策略,然后機器人作為執行器控制運動再現行為,實作運動技能學習,[1]

原視頻鏈接(來源于YouTube):https://www.youtube.com/watch?v=hD34o3DGYcw
行為獲取-獲得示教軌跡資料后,首先需要進行預處理,進行運動分割、降維、濾波、特征提取等處理,將預處理后的資料作為學習模型輸入,為編碼做準備,
行為表述-行為表述即為編碼程序,研究如何將觀察到的示教行為映射到機器人系統上,有效的表述方法需要具備一定的泛化能力和魯棒性,能把學習到的能力應用在新環境中,并且具有一定抗干擾的能力,
行為再現-對于機器人模仿學習,需要評估模仿性能的度量,然后通過底層運動控制,將學習到的控制策略映射到機器人的執行器空間,實作真正意義的可再現,
模仿學習中,示教資料(運動軌跡)的獲取是訓練模型的基礎,在研究中采集示教資料的途徑主要有三種[2]:

1)拖動示教,拖動示教是通過人實際移動機器人完成所需動作來進行演示,程序中的狀態資訊(比如關節角度和扭矩等)通過機器人的機載傳感器記錄,從而為機器學習模型生成訓練資料,這種方法比較直觀,對用戶要求也較低,在輕型工業機器人場景中使用廣泛,但是這種方法的演示質量取決于操作者動作的靈活性和流暢性,即使是專家操作者操作獲取的資料也需要平滑或其他后處理,此外受到形態因素限制,這種方式對機械臂最有效,但是在其他平臺(比如腿式機器人或靈巧手等)使用拖拽示教的難度較大,
2)遙操作,遙操作是另一種演示方法,可以用于軌跡學習、任務學習、抓取或者更高級的任務,遙操作需要通過手柄、圖形界面或者其他方式向機器人提供外部輸入,目前已存在多種互動設備(比如觸覺設備或VR互動設備等),與拖拽示教不同,遙操作不需要用戶與機器人在同一現場,可以遠程實作,遙操作的局限性包括需要開發輸入界面等額外作業、需要更長時間的用戶培訓程序以及外部設備帶來的可用性風險,
3)被動觀察,被動觀察主要是機器人通過觀察演示者動作進行學習,演示者利用自己的身體完成任務,利用外部設備捕捉演示者的動作(演示者身體或操作的目標物)資料,其中最有效的資料獲取方式為被動式光學動作捕捉,機器人在此程序中不參與任務執行,只是作為被動觀察者,這種方式對于演示者最為輕松,對于演示程序不需要任何訓練,這種方式也適用于具有多自由度的機器人以及非擬人機器人(這些場景很難使用拖拽示教方法),這種方法需要將人類動作映射到機器人可執行的動作,其中存在的困難包括演示程序中的遮擋、快速移動和傳感器噪聲等,

原視頻鏈接(來源于YouTube):https://www.youtube.com/watch?v=z8SfRrUvQ_4
NOKOV度量動作捕捉系統采用被動紅外光學原理,通過捕捉粘貼在人體軀干(或操作的目標物)上的反游標志點來獲取運動資料,NOKOV動作捕捉系統的定位精度高,靜態重復精度達到0.037mm,絕對精度可以達到0.087mm,直線動態軌跡誤差可以達到0.2mm,圓弧軌跡誤差0.22mm[3],此外NOKOV度量動作捕捉系統在滿解析度情況下的采樣頻率最高可以達到380Hz,滿足對高運動速度演示進行資料采集的需求,NOKOV工程師有5年以上的專案經驗,對于不同的場地情況可以給出定制化方案,使實驗程序中的遮擋影響降到最小,
目前國外研究模仿學習知名的機構,比如瑞士聯邦理工學院(EPFL)的LASA實驗室、意大利技術研究院機器人實驗室、德國達姆施塔特大學Prof. Jan Peters團隊等,都使用了動作捕捉系統作為獲取示教軌跡資料的重要手段,

Arm-hand motion-force coordination for physicalinteractions with non-flat surfaces using dynamical systems: Toward compliantrobotic massage
原文鏈接:https://ieeexplore.ieee.org/abstract/document/9196593
動作捕捉應用于示教學習案例舉例
哈爾濱工業大學-3C裝配任務精確控制
研究人員通過模仿學習方法提出一種有效的離線編程技術以實作3C裝配線的自動化[4],該程序包括兩個階段,第一階段,NOKOV度量光學動作捕捉設備用于捕獲在裝配程序中人手的位姿資訊;第二階段,通過學習這些演示資料設計機器人控制策略,首先利用基于密度的空間聚類啟發軌跡分割演算法和基于區域離群因子的例外點檢測演算法對演示資料進行預處理,然后從已處理的資料中通過基于高斯混合模型的概率學習策略學習人類裝配技能,從而驅動機器人在新環境下完成相同的裝配任務,
演示資料由NOKOV度量光學動作捕捉設備獲得,該平臺能夠跟蹤粘貼在操作人員手上的三個反游標記點,操作簡單,可以直觀記錄人工裝配動作,并借用強化學習的框架提出一種迭代路徑優化技術,研究通過演示一條簡單的拾取-放置(pick-and-place)裝配路徑驗證了迭代路徑優化策略的有效性,

重慶郵電大學-基于模仿學習手識訓器人縫合技能建模方法
手術輔助機器人可以幫助外科醫生克服傳統手術在操作精度、作業空間、距離和協同作業等方面的難點,為了讓手識訓器人系統實作像醫生一樣高質量的自動化操作,一項重要的基礎作業是建立手術操作模型,
為此,重慶郵電大學的楊德偉老師團隊以淺表組織縫合為建模物件,進行了縫合技能學習和建模研究[5],為了獲取醫生縫合手術演示程序中的資料,研究人員建立了一套縫合手術演示采集系統,

系統包含一套NOKOV度量動作捕捉系統、手術鉗、縫合針、線和傷口模型,根據DMPs方法將動作捕捉系統采集到的軌跡資料分為幾個動態程序,利用示教者的操作軌跡資料去訓練DMPs模型,最終驗證了該方法對縫合程序的建模能力和對新場景的適應性,
武漢大學-軌跡預測
武漢大學的軌跡預測相關研究,以球狀飛行物體為研究物件,研究內容包括運動目標的實時識別、定位與軌跡預測,通過搭建LSTM網路模型,對模型進行訓練和測驗,解決了球狀飛行物體的識別與定位以及軌跡預測問題[6],
實驗采用Kinect深度相機和8鏡頭NOKOV度量動作捕捉系統方案搭建系統硬體平臺,采用 ROS系統作為機器人的軟體平臺,并對系統進行標定,標定物件包括包括 Kinect 深度相機的內參標定,以及 Kinect 與 NOKOV 度量動作捕捉系統的聯合標定,
運動目標識別采用基于混合高斯模型的背景差分法對運動目標進行識別,對運動目標進行相平面定位以獲取對應像素點的點云資訊,采用高斯牛頓法擬合點云質心獲取運動目標的空間坐標,結合卡爾曼濾波對質心運動軌跡進行優化,

實驗中,研究人員采用基于 RNN 的運動目標軌跡預測方法,利用NOKOV度量動作捕捉系統采集1000條運動目標完整運動軌跡,并將資料集80%的軌跡序列用于訓練,20%的軌跡序列用于測驗,最后將所搭建網路應用于不規則運動目標乒乓球拍的軌跡預測中,證明了所搭建網路的泛化能力,
實驗中,研究人員采用基于RNN 的運動目標軌跡預測方法,利用NOKOV度量動作捕捉系統采集1000條運動目標完整運動軌跡,并將資料集80%的軌跡序列用于訓練,20%的軌跡序列用于測驗,最后將所搭建網路應用于不規則運動目標乒乓球拍的軌跡預測中,證明了所搭建網路的泛化能力,
參考文獻:
[1]于建均,門玉森,阮曉鋼,徐驄馳.模仿學習在機器人仿生機制研究中的應用[J].北京工業大學學報,2016,42(02):210-216.
[2] Recent Advances in Robot Learning fromDemonstration Harish Ravichandar, Athanasios S. Polydoros, Sonia Chernova, AudeBillard Annual Review of Control, Robotics, andAutonomous Systems 2020 3:1, 297-330.
[3] H. Hu, Z. Cao, X. Yang, H. Xiong and Y.Lou, "Performance Evaluation of Optical Motion Capture Sensors forAssembly Motion Capturing," in IEEE Access, vol. 9, pp. 61444-61454, 2021,doi: 10.1109/ACCESS.2021.3074260.
[4] Z. Zhao, H. Hu, X. Yang and Y. Lou,"A Robot Programming by Demonstration Method for Precise Manipulation in3C Assembly," 2019 WRC Symposium on Advanced Robotics and Automation (WRCSARA), 2019, pp. 172-177, doi: 10.1109/WRC-SARA.2019.8931947.
[5] D. Yang, Q. Lv, G. Liao, K. Zheng, J.Luo and B. Wei, "Learning from Demonstration: Dynamical MovementPrimitives Based Reusable Suturing Skill Modelling Method," 2018 ChineseAutomation Congress (CAC), 2018, pp. 4252-4257, doi: 10.1109/CAC.2018.8623781.
[6]楊明輝. 基于回圈神經網路的運動目標軌跡預測[D].武漢大學,2019.
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/338939.html
標籤:其他
