国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

深度學(xué)習(xí)技術(shù)如何解決機(jī)器人處理可變形物體的難題

對于人類來說,處理可變形物體并不比處理剛性物體困難多少。人們很自然地學(xué)會塑造它們,折疊它們,并以不同的方式操縱它們,并且仍然能夠識別它們。

但是對于機(jī)器人和人工智能系統(tǒng)來說,操縱可變形物體是一個(gè)巨大的挑戰(zhàn)。例如機(jī)器人必須采取一系列步驟將面團(tuán)做成比薩餅皮。當(dāng)面團(tuán)改變形狀時(shí)必須進(jìn)行記錄和跟蹤,與此同時(shí),它必須為每一步的工作選擇正確的工具。對于當(dāng)前的人工智能系統(tǒng)來說,這些都是具有挑戰(zhàn)性的任務(wù),它們在處理具有更可預(yù)測狀態(tài)的剛體物體時(shí)更加穩(wěn)定。

現(xiàn)在,麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)和加州大學(xué)圣地亞哥分校的研究人員開發(fā)的一種新的深度學(xué)習(xí)技術(shù),有望使機(jī)器人系統(tǒng)在處理可變形物體時(shí)更加穩(wěn)定。這項(xiàng)名為DiffSkill的技術(shù)使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)簡單的技能,并使用一個(gè)規(guī)劃模塊來結(jié)合這些技能,以解決需要多個(gè)步驟和工具的任務(wù)。

通過強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)處理可變形物體

如果人工智能系統(tǒng)想要處理一個(gè)物體,它必須能夠檢測和定義它的狀態(tài),并預(yù)測它未來的樣子。對于剛性物體來說,這是一個(gè)基本上已經(jīng)解決的問題。通過一組良好的訓(xùn)練示例,深度神經(jīng)網(wǎng)絡(luò)將能夠從不同角度檢測剛性物體。當(dāng)涉及到可變形物體時(shí),其多種狀態(tài)空間變得更加復(fù)雜。

卡內(nèi)基梅隆大學(xué)博士生、DiffSkill論文的主要作者林星宇說,“對于剛性物體,我們可以用六個(gè)數(shù)字來描述它的狀態(tài):三個(gè)數(shù)字表示它的XYZ坐標(biāo),另外三個(gè)數(shù)字表示它的方向。

然而,諸如面團(tuán)或織物之類的可變形物體具有無限的自由度,因此更難精確地描述它們的狀態(tài)。此外,與剛性物體相比,它們的變形方式也更難用數(shù)學(xué)方法建模。”

可微物理模擬器的發(fā)展使基于梯度的方法能夠應(yīng)用于解決可變形物體操作任務(wù)。這與傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法不同,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法試圖通過純粹的試錯(cuò)交互來學(xué)習(xí)環(huán)境和物體的動態(tài)。

DiffSkill的靈感來自PlasticineLab,這是一種可微分的物理模擬器,并在2021的ICLR會議上展出。PlasticineLab表明,可微模擬器可以幫助完成短期任務(wù)。

PlasticineLab是一個(gè)基于可微分物理的可變形物體模擬器。它適用于訓(xùn)練基于梯度的模型

但是可微分模擬器仍然在處理需要多個(gè)步驟和使用不同工具的長期問題。基于可微分模擬器的人工智能系統(tǒng)還要求了解環(huán)境的完整模擬狀態(tài)和相關(guān)物理參數(shù)。這對于現(xiàn)實(shí)世界的應(yīng)用程序尤其有限制,在這些應(yīng)用程序中,代理通常通過視覺和深度感覺數(shù)據(jù)(RGB-D)感知世界。

林星宇說,“我們開始詢問是否可以將完成任務(wù)所需的步驟提取為技能,并學(xué)習(xí)有關(guān)技能的抽象概念,以便我們可以將它們鏈接起來以解決更復(fù)雜的任務(wù)。”

DiffSkill是一個(gè)框架,其中人工智能代理使用可微物理模型學(xué)習(xí)技能抽象,并將它們組合起來以完成復(fù)雜的操作任務(wù)。

他在過去的工作重點(diǎn)是使用強(qiáng)化學(xué)習(xí)來操縱可變形的物體,例如布料、繩索和液體。對于DiffSkill,他選擇面團(tuán)操作是因?yàn)樗鼛淼奶魬?zhàn)。

他說,“面團(tuán)操作特別有趣,因?yàn)樗蝗菀子脵C(jī)器人抓取器完成,而是需要依次使用不同的工具,這是人類擅長但機(jī)器人不太常見的事情。”

經(jīng)過訓(xùn)練,DiffSkill可以僅使用RGB-D輸入成功完成一組面團(tuán)操作任務(wù)。

采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)抽象技能

DiffSkill訓(xùn)練神經(jīng)網(wǎng)絡(luò)從可微物理模擬器獲得的初始狀態(tài)和參數(shù)預(yù)測目標(biāo)狀態(tài)的可行性

DiffSkill由兩個(gè)關(guān)鍵組件組成:一個(gè)是使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)個(gè)人技能的“神經(jīng)技能抽象器”,另一個(gè)是用于解決長期任務(wù)的“規(guī)劃器”。

DiffSkill使用可微分物理模擬器為技能抽象器生成訓(xùn)練示例。這些示例展示了如何使用單一工具實(shí)現(xiàn)短期目標(biāo),例如使用搟面杖攤開面團(tuán)或使用抹刀移動面團(tuán)。

這些示例以RGB-D視頻的形式呈現(xiàn)給技能抽象者。給定圖像觀察,技能抽象器必須預(yù)測期望的目標(biāo)是否可行。該模型通過將其預(yù)測與物理模擬器的實(shí)際結(jié)果進(jìn)行比較來學(xué)習(xí)和調(diào)整其參數(shù)。

對面團(tuán)等可變形物體的機(jī)器人操作需要對不同工具的使用進(jìn)行長期推理。DiffSkill方法利用可微分的模擬器來學(xué)習(xí)和組合這些具有挑戰(zhàn)性的任務(wù)的技能。

與此同時(shí),DiffSkill訓(xùn)練變分自編碼器(VAE)以學(xué)習(xí)物理模擬器生成的示例的潛在空間表示。變分自編碼器(VAE)在保留重要特征,并丟棄與任務(wù)無關(guān)的信息。通過將高維圖像空間轉(zhuǎn)換為潛在空間,變分自編碼器(VAE)在使DiffSkill能夠在較長的視野內(nèi)進(jìn)行規(guī)劃和通過觀察感官數(shù)據(jù)預(yù)測結(jié)果方面發(fā)揮了重要作用。

訓(xùn)練變分自編碼器(VAE)的重要挑戰(zhàn)之一是確保它學(xué)習(xí)正確的特征并推廣到現(xiàn)實(shí)世界。在真實(shí)世界中,視覺數(shù)據(jù)的組成不同于物理模擬器生成的數(shù)據(jù)。例如,搟面杖或砧板的顏色與任務(wù)無關(guān),但搟面杖的位置和角度以及面團(tuán)的位置與任務(wù)有關(guān)。

目前,研究人員正在使用一種稱為“域隨機(jī)化”的技術(shù),該技術(shù)將訓(xùn)練環(huán)境的不相關(guān)屬性(如背景和照明)隨機(jī)化,并保留工具的位置和方向等重要特征。這使得訓(xùn)練變分自編碼器(VAE)在應(yīng)用于現(xiàn)實(shí)世界時(shí)更加穩(wěn)定。

林星宇說,“做到這一點(diǎn)并不容易,因?yàn)槲覀冃枰w模擬和現(xiàn)實(shí)世界(稱為sim2real gap)之間所有可能的差異,更好的方法是使用3D點(diǎn)云作為場景的表示,這更容易從模擬轉(zhuǎn)移到現(xiàn)實(shí)世界。事實(shí)上,我們正在開發(fā)一個(gè)使用點(diǎn)云作為輸入的后續(xù)項(xiàng)目。”

規(guī)劃可變形物體的長期任務(wù)

DiffSkill使用規(guī)劃模塊來評估可以實(shí)現(xiàn)目標(biāo)的不同技能組合和序列

一旦技能抽象器被訓(xùn)練,DiffSkill使用規(guī)劃器模塊來解決長期任務(wù)。規(guī)劃者必須確定從初始狀態(tài)到目的地所需的技能數(shù)量和順序。

這個(gè)規(guī)劃器會迭代可能的技能組合以及它們產(chǎn)生的中間結(jié)果。變分自動編碼器在這里派上用場。DiffSkill不是預(yù)測完整的圖像結(jié)果,而是使用VAE來預(yù)測實(shí)現(xiàn)最終目標(biāo)的中間步驟的潛在空間結(jié)果。

抽象技能和潛在空間表示的結(jié)合使得繪制從初始狀態(tài)到目標(biāo)的軌跡的計(jì)算效率更高。事實(shí)上,研究人員不需要優(yōu)化搜索功能,而是對所有組合進(jìn)行了詳盡的搜索。

林星宇說,“由于我們正在規(guī)劃技能,計(jì)算工作也不會太多,而且時(shí)間也不長。這種詳盡的搜索消除了為規(guī)劃師設(shè)計(jì)草圖的需要,可能會導(dǎo)致設(shè)計(jì)師沒有以更一般的方式考慮新穎的解決方案,盡管我們在嘗試的有限任務(wù)中沒有觀察到這一點(diǎn)。此外,還可以應(yīng)用更復(fù)雜的搜索技術(shù)。”

DiffSkill論文指出,“在單個(gè)NVIDIA 2080Ti GPU上,每種技能組合的優(yōu)化都可以在大約10秒鐘內(nèi)高效完成。”

使用DiffSkill準(zhǔn)備比薩面團(tuán)

研究人員對DiffSkill的性能進(jìn)行了測試,對比了幾種已應(yīng)用于可變形物體的基線方法,包括兩種無模型強(qiáng)化學(xué)習(xí)算法和一種僅使用物理模擬器的軌跡優(yōu)化器

這些模型在需要多個(gè)步驟和工具的多個(gè)任務(wù)上進(jìn)行了測試。例如在其中一項(xiàng)任務(wù)中,人工智能代理必須用抹刀將面團(tuán)提起,將其放在砧板上,然后用搟面杖將其攤開。

研究結(jié)果表明,DiffSkill在僅使用感官信息解決長期、多工具任務(wù)方面明顯優(yōu)于其他技術(shù)。實(shí)驗(yàn)表明,在經(jīng)過良好訓(xùn)練后,DiffSkill的規(guī)劃器可以在初始狀態(tài)和目標(biāo)狀態(tài)之間找到良好的中間狀態(tài),并找到合適的技能序列來解決任務(wù)。

DiffSkill的規(guī)劃器可以非常準(zhǔn)確地預(yù)測中間步驟

林星宇說,“其中一個(gè)要點(diǎn)是,一組技能可以提供非常重要的時(shí)間抽象,使我們能夠進(jìn)行長期推理。這也類似于人類處理不同任務(wù)的方式:在不同的時(shí)間抽象中思考,而不是思考下一秒該做什么。”

但是,DiffSkill的容量也有限制。例如,當(dāng)執(zhí)行需要三階段規(guī)劃的任務(wù)之一時(shí),DiffSkill的性能會顯著下降(盡管它仍然優(yōu)于其他技術(shù))。林星宇還提到,在某些情況下,可行性預(yù)測器會產(chǎn)生誤報(bào)。研究人員認(rèn)為,學(xué)習(xí)更好的潛在空間可以幫助解決這個(gè)問題。

研究人員還在探索改進(jìn)DiffSkill的其他方向,包括一種更有效的規(guī)劃算法,可以用于更長時(shí)間的任務(wù)。

林星宇表示,希望有一天,他可以在真正的披薩制作機(jī)器人上使用DiffSkill。他說,“我們還遠(yuǎn)遠(yuǎn)沒有做到這一點(diǎn)??刂?、sim2real轉(zhuǎn)移和安全方面出現(xiàn)了各種挑戰(zhàn)。但我們現(xiàn)在更有信心嘗試開展一些長期任務(wù)。”

原文標(biāo)題:This deep learning technique solves one of the tough challenges of robotics,作者:Ben Dickson

猜你喜歡