時間:2022年02月15日 分類:電子論文 次數:
摘要:通過梳理、總結前人的研究,首先對深度學習和強化學習的基本理論和算法進行介紹,進而對深度強化學習的流行算法和在機器人操作領域的應用現狀進行綜述。最后,根據目前存在的問題及解決方法,對深度強化學習在機器人操作領域未來的發展方向作出總結與展望。
關鍵詞:深度學習;強化學習;機器人操作;深度強化學習;機器人學習
1引言(Introduction)
隨著機器人技術的發展,機器人被廣泛應用于醫療、工業、國防以及家庭服務等領域。機器人在人工示教、遙操作以及復雜編程等傳統方法的基礎上,經過訓練后具備一定的操作技能,并且在結構化環境下可以快速準確地完成任務[1-2]。然而,在智能化時代,機器人面對的往往是復雜多變的非結構化環境,傳統的機器人技術會面對一些難題,比如機器人不具備處理未知環境的能力、開發時間長以及專業技能需求高等[3]。在一些情況下機器人僅能完成固定工作且不能泛化到新任務[4]。為了使機器人技能泛化到新環境中,機器人需要不斷地與環境交互和學習,提高應對復雜環境的能力[5]。
隨著人工智能(artificialintelligence,AI)的發展,AI賦予了機器人強大的學習能力,使機器人學習更快并且縮減了機器人操作技能的開發時間,機器人的學習能力在一定程度上甚至能達到人類的水平[6-7]。在AI背景下,機器學習為機器人領域帶來了新的機遇[8],尤其是強化學習(reinforcementlearning,RL)。RL是機器人與環境不斷交互,進而不斷強化自身決策能力的過程。RL不僅可以有效地解決復雜編程的問題,而且已經在機器人操作領域得到了廣泛應用。深度學習與強化學習結合形成的深度強化學習進一步提升了機器人學習操作技能的能力。
深度強化學習(deepreinforcementlearning,DRL)將深度學習的感知能力和強化學習的決策能力相結合,可以直接根據輸入信息控制機器人的行為,賦予了機器人接近人類的思維方式,是機器人獲得操作技能非常重要的方法。機器人技能學習是使機器人通過交互數據,從行為軌跡中自主獲取和優化技能,并應用于類似的任務[9]。機器人操作技能作為機器人與外界交互的重要技能之一,對機器人的發展應用具有重要意義。近年來,機器人操作行為的研究已經成為機器人領域的研究趨勢和熱點[10-11]。
但RL應用于機器人操作行為的研究存在數據特征提取困難和機器人缺乏感知能力等問題。因此,深度學習與強化學習的結合必不可少。本文首先對基于深度強化學習的機器人操作行為研究進行了概述,然后介紹了深度學習和強化學習的核心概念和算法模型、深度強化學習的流行算法及原理以及深度強化學習在機器人操作領域的實際應用以及存在的問題,最后對深度強化學習在機器人操作領域的應用研究進行展望和總結。
2概念和術語(Conceptsandterminology)
2.1深度學習
深度學習側重于對事物的感知和表達,其核心思想是通過多層網絡結構和非線性變換,將低層次數據特征映射為易于處理的高層次表示,以發現數據之間的聯系和特征表示。深度學習使用多層結構抽象表征數據特征以構建計算模型,足夠復雜的結構可以處理高維度的原始數據。深度學習的模型主要有深度信念網絡(deepbeliefnetwork)、卷積神經網絡(convolutionalneuralnetwork,CNN)、循環神經網絡(recurrentneuralnetwork)等。CNN是前饋神經網絡,經典的CNN由一個或多個卷積層和頂端的全連接層組成。CNN使用反向傳播算法訓練模型,在圖像處理方面應用廣泛。
對CNN進行改進的典型工作如下:Krizhevsky等[12]提出AlexNet深度卷積神經網絡,該網絡引入了全新的深層結構,并采取隨機丟棄部分隱藏神經元的方法抑制過擬合現象;Simonyan等[13]通過增加網絡層數,提出了VGG-Net模型,圖像識別準確率進一步提升;Lin等[14]通過增加卷積模塊,利用多層感知卷積層提取圖像特征,大大降低了圖像識別錯誤率。研究表明,CNN圖像識別具有良好的性能,為基于視覺的機器人操作研究工作提供了技術保證。
將深度學習方法應用到機器人操作領域具有一定的挑戰性,其中包括狀態估計中存在噪聲干擾、獎勵函數難以確定、連續行為空間難以處理等[15]。但是仍有研究人員在基于深度學習的機器人操作領域進行了深入研究:杜學丹等[16]提出了基于深度學習算法的機械臂抓取方法,在UniversalRobot5機械臂上驗證了方法的有效性和魯棒性。伍錫如等[17]運用CNN進行圖像處理以定位目標,并通過六軸柔性工業分揀機器人驗證了模型的識別精度可達98%。除此之外,深度學習已經成功應用在機器人推動目標物[18]、操作3維物體模型[19]和操作容器傾倒液體[20]等任務。 然而,基于深度學習訓練的機器人模型不具備行為決策能力和對未知環境的適應能力,因此強化學習的應用不可或缺。
2.2強化學習
2.2.1強化學習算法原理
強化學習算法的原理是智能體不斷與環境交互,理解最佳的行為方式,最終學習到最優的行為策略。
2.2.2強化學習算法分類
(1)無模型(model-free)算法和基于模型(model-based)的算法無模型強化學習算法是智能體通過與環境交互產生的樣本數據,直接優化動作,而不是擬合模型。該算法以最小化偏差的方式與動態環境進行交互,保證算法漸近收斂,最終獲得最優解。但是,無模型算法在樣本數據收集方面非常昂貴,相對簡單、低維度的行為也可能需要百萬級數據,高維度的復雜行為需要花費更多的時間和精力。
除此之外,無模型算法對超參數(比如學習率)非常敏感,微調參數后才能達到較好的結果。基于模型的強化學習算法是智能體根據其與環境交互產生的數據,訓練并擬合模型,然后智能體基于模型優化行為準則。在基于模型的算法中,智能體可以推斷未知的環境狀態,提前計算狀態轉移概率和未來期望獎勵,提高了樣本效率。然而,該算法對未知的、復雜的動態環境難以精確地建模。
因此,模型可能存在嚴重的偏差,且不能保證算法最優解漸近收斂,導致難以產生有效的行為策略。總之,無模型的和基于模型的強化學習方法沒有絕對的好壞之分,不同的任務設計需求對應不同的算法類型。基于深度強化學習,機器人操作行為研究多采用無模型強化學習方法。(2)基于價值(value-based)的算法和基于策略(policy-based)的算法在基于價值的強化學習算法中,動作選擇策略固定不變,如ε貪婪策略[6]。特定狀態下,動作的選擇方式相同。
3深度強化學習(Deepreinforcementlearning)
3.1深度強化學習概述及分類
深度強化學習可以直接根據輸入的原始數據進行動作選擇,是一種更加接近人類思維方式的人工智能算法[25]。深度學習通過學習深層的非線性網絡結構和數據集的本質特征,實現函數的逼近[26]。智能體在與環境交互的過程中,利用強化學習通過不斷試錯和最大化累積獎勵來生成最優的行為策略[21]。
近年來,深度強化學習[27]已經成功應用到圍棋[28-31]、視頻游戲[32-38]和多智能體[39]等領域。許多公司及機構,如DeepMind公司、OpenAI公司及加州大學伯克利分校等,基于深度強化學習對機器人行為的研究做出了突出貢獻。DeepMind公司成功將深度強化學習算法應用到連續動作領域,比如機器人操作和運動等[40]。Heess等[41]基于分布式近端策略優化算法,使用前向傳播的簡單獎勵函數,在多種具有挑戰性的地形和障礙物上,成功訓練了多個虛擬人物完成跑酷任務。
OpenAI公司提出了新型的近端策略優化算法[42],成功訓練多腿機器人相互玩游戲,并指導機器人不斷適應彼此策略中的增量變化[43]。加州大學伯克利分校提出策略搜索算法,該算法迭代擬合局部線性模型以優化連續的動作軌跡[44],并且訓練機器人成功完成了擰瓶蓋任務[45]。
總之,上述研究工作極大地促進了機器人領域的發展,為機器人實現智能化提供了強大的技術支撐。TRPO算法首先通過蒙特卡洛方法估計Q值,然后根據平均Q值得到目標和約束的估計,最后采用共軛梯度和線搜索方法近似解決約束優化問題[70]。TRPO算法保證了策略優化過程中性能漸進提高。但是,由式(19)~(23)的推導可知,其計算量較大,并且策略與值函數之間參數不共享。
針對TRPO算法存在的問題,Schulman等[42]提出了TRPO1階近似形式的改進型算法,近端策略優化(proximalpolicyoptimization,PPO)算法。PPO算法同樣有AC架構形式,采用重要性采樣機制重復利用樣本數據,提高了樣本效率,限制了采樣網絡和訓練網絡的分布相差程度。PPO算法在目標函數中增加剪切項,將策略更新限制在規定區間內。PPO算法使用了1階近似形式,相比較TRPO算法的2階泰勒展開,在復雜的高維度空間中具有更好的性能,保證了精度和訓練速度。
相對于TRPO算法,ME-TRPO(modelensembletrust-regionpolicyoptimization)算法[60]采用集成神經網絡解決環境中數據不穩定性的問題,并交替進行模型學習和策略學習,對復雜任務具有良好的適應性。SLBO(stochasticlowerboundoptimization)算法[61]相對于ME-TRPO算法,保證了單調性的提高,并使用L2范數損失函數訓練動力學模型。少樣本訓練時,SLBO算法在多項MuJoCo仿真器任務中的性能優于SAC算法、TRPO算法等。
3.2.其他深度強化學習算法
HER(hindsightexperiencereplay)算法主要解決了稀疏獎勵導致強化學習困難的問題。HER算法通過附加目標獎勵和價值函數,使得智能體到達的每個狀態均有目標,且每個目標均對應一套稀疏獎勵函數。智能體可以利用失敗的探索經歷進行動作限制,提高了樣本利用率。除此之外,HER算法將目標數據附加到經驗池中,重塑了經驗池數據結構。Andrychowicz等[62]基于HER算法進行了機械臂推動、滑動、抓取并放置方塊等3個任務。實驗表明,HER算法可以結合任意的離線策略算法,并且效果優于原版算法。
4深度強化學習在機器人操作中的應用(ApplicationsofDRLtorobotmanipulation)
機器人操作行為是機器人與外界交互的首要條件,機器人只有具備了類似人類的思維方式,才能自主地與外界環境交互。研究表明,基于深度強化學習,機器人能夠根據交互信息學習到行為策略,并根據行為策略和環境的狀態表征選擇合適的操作行為。傳統機器人操作研究的局限性表現為:動態環境具有不可預測性、機器人僅在固定位置完成任務且不具備自主學習的能力、機器人技術開發時間長等。
部分傳統機器人依靠多種傳感器采集機器人工作過程信息,傳感器信息的融合過程不僅會導致信息丟失,而且會嚴重壓縮信息質量。機器學習技術在計算機視覺領域廣泛應用,這使得越來越多的機器人將視覺信號作為輸入控制信號[71]。基于視覺的機器人操作系統是從圖像中提取視覺特征信息來控制機器人運動,直接根據輸入信息,輸出機器人的行為。
相對于基于多傳感器數據融合的機器人操作系統,以基于深度強化學習的視覺信息作為輸入的機器人操作系統能夠直接將狀態信息映射到行為空間,高效且精確。以機器人抓取為例,機器人需要通過視覺采集物體的空間位姿,計算出最佳的抓取位置和方向。因此,基于深度強化學習、以視覺信息為輸入的機器人操作行為研究成為機器人操作領域的主流方向。本節主要討論基于深度強化學習、以視覺信息為輸入的機器人操作行為研究。
針對不同的目標物屬性,總結了以剛性物體和非剛性物體為操作目標的研究工作;針對不同的模型訓練場景,總結了在模擬環境和真實環境中訓練模型的研究工作;針對不同的獎勵函數設計方式,總結了以稀疏獎勵和塑性獎勵為行為評價標準的研究工作;針對不同質量的示范數據,總結了示范和次優示范的研究工作,包括模仿學習在其中的應用;針對模型遷移到新任務需要進行大量微調或重新訓練的問題,對元強化學習在機器人操作行為中的應用進行了總結。其中列舉的工作為基于深度強化學習的機器人操作行為的近期研究成果和被引量較高的工作。
4.1剛性目標和非剛性目標
大多數機器人的操作目標主要是剛性物體,當機器人操作剛性物體時,物體不會發生形變或者形變可忽略不計。最近幾年,家庭輔助機器人的產量逐年遞增,機器人被大規模地應用于現實生活當中,而且人們對家庭輔助機器人的性能要求越來越高。家庭輔助機器人的操作對象主要集中在非剛性物體,如衣服、毛巾等。由于機器人操作非剛性物體會導致結構發生變化,非剛性物體的精確建模異常困難,因此,基于不同的操作對象屬性選擇不同的深度強化學習方法至關重要。
5挑戰和未來展望(Challengesandfutureprospects)
基于深度強化學習的機器人操作研究,其發展動力主要源自于如何將深度強化學習的能力最大化。機器人只有具備了自主思考的能力,才能像人類一樣在面對未知環境時探求最優的行為方式。雖然基于深度強化學習的算法已經解決了多種多樣的機器人操作任務,并使機器人在執行操作任務時具備自主學習的能力,但是仍然存在很多技術挑戰。
幾乎沒有機器人操作問題可以被嚴格地定義為馬爾可夫決策過程,而是表現為部分可觀性和非平穩性,這是實驗效果并不如預期的原因之一。對于多步驟任務而言,它涉及到很多動作和行為,不可能對每個動作或者行為都設置獎勵函數。因此,機器人為了達到目標狀態會表現出大量不合理的動作。
此外,如何平衡“探索”和“利用”一直是機器人操作領域難以解決的問題,許多工作通過機器人在實驗過程中的表現,人為限定“探索”和“利用”的界限,但是機器人難以自主學習如何去平衡“探索”和“利用”。基于深度強化學習的機器人操作研究仍然在如下幾個方面存在挑戰:
1)非剛性物體難以被精確建模。機器人在重復性高、環境設定簡單和操作不確定度小等場景下表現較好,但所操作的對象大部分為剛性物體。而非剛性物體(如毛巾、衣服等)的姿態和形狀是不斷變化的,難以構造其精確的物理模型,因此機器人在操作這類物體時難以選擇抓取點,或者抓取點被遮蓋住,直接導致機器人操作任務失敗。針對此挑戰,設計多指靈巧機械手和開發非剛性物體的開源模擬平臺可能成為機器人操作柔性物體的有效解決方法。具體而言,多指靈巧機械手的手指可以相互配合,類似于人類手指,并且每個手指可以單獨動作。對于柔性物體的姿態和形狀發生變化的情況,開發強大的模擬平臺實時對物體形狀進行建模以確定理想的操作位置是有效解決途徑。
2)模型難以從模擬環境遷移到真實環境。大部分機器人操作研究首先在模擬場景中訓練行為模型,然后將其遷移到真實機器人測試。雖然模擬場景有訓練速度快、采樣效率高和不損耗機器人設備等優點,但是由于模擬場景和真實場景存在物理約束和環境差異等領域差異,模型遷移后需要進行大量微調工作才能工作,往往效果不佳。因此,根據實驗需求,將二者的領域差異因素加入到模擬環境中,可使行為策略具備更強的魯棒性。在算法層面上,開發高級深度強化學習算法并從動力學角度加入真實場景中的摩擦力、光照、噪聲等干擾因素,也可以成為一種有效減小領域差異的途徑。
3)不同環境不同任務間模型可移植性差。在某個特定環境和特定任務中訓練的行為策略移植到新環境中往往需要微調以適應環境;移植到新任務中往往不具備直接完成任務的能力,甚至需要重新開始訓練。針對此挑戰,元強化學習可成為有效解決方法。元強化學習可根據經驗和少量樣本數據,改進行為策略適應新任務、新環境。此外,多任務學習可以通過多個任務間共享結構實現不同任務間的模型移植[172]。
6結論(Conclusion)
對深度強化學習算法的原理及其在機器人操作領域的應用現狀進行了詳細的論述。基于深度強化學習的機器人技術打破了傳統方法中復雜編程及示教編程的壁壘,并賦予了機器人自主學習操作技能的能力。在基于深度強化學習算法的機器人操作任務中,深度強化學習算法訓練的行為策略可指導機器人探索行為空間,使機器人面對未知環境時具備一定的決策能力。
在此算法下,機器人面對未知環境時能自動調整行為策略以適應不同的操作任務。目前,深度強化學習已經在機器人操作領域取得了顯著的成功,但仍面臨非剛性物體建模困難、模型遷移性差、數據效率低等挑戰。總之,深度強化學習的創新與進步促進了機器人操作行為的研究進程,為機器人真正實現智能化提供了技術保證。
參考文獻(References)
[1]劉乃軍,魯濤,蔡瑩皓,等.機器人操作技能學習方法綜述[J].自動化學報,2019,45(3):458-470.LiuNJ,LuT,CaiYH,etal.Areviewofrobotmanipulationskillslearningmethods[J].ActaAutomaticaSinica,2019,45(3):458-470.
[2]倪自強,王田苗,劉達.基于視覺引導的工業機器人示教編程系統[J].北京航空航天大學學報,2016,42(3):562-568.NiZQ,WangTM,LiuD.Visionguidebasedteachingprogrammingforindustrialrobot[J].JournalofBeijingUniversityofAeronauticsandAstronautics,2016,42(3):562-568.
[3]RozoL,JaquierN,CalinonS,etal.Learningmanipulabilityellipsoidsfortaskcompatibilityinrobotmanipulation[C]//IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Piscataway,USA:IEEE,2017:3183-3189.
[4]BroquereX,SidobreD,NguyenK.Frommotionplanningtotrajectorycontrolwithboundedjerkforservicemanipulatorrobots[C]//IEEEInternationalConferenceonRoboticsandAutomation.Piscataway,USA:IEEE,2010:4505-4510.
作者:陳佳盼1,鄭敏華1,2