mit團(tuán)隊(duì)打造“密集目標(biāo)網(wǎng)絡(luò)”(don)的機(jī)器人系統(tǒng),能夠讓抓取機(jī)器人真正“讀懂”目標(biāo),該系統(tǒng)將目標(biāo)處理生成三維“視覺(jué)路線圖”的點(diǎn)集合,讓機(jī)器人真正在視覺(jué)上理解目標(biāo)。利用這一系統(tǒng),科學(xué)家們不必再像過(guò)去的計(jì)算機(jī)視覺(jué)研究一樣,繁瑣地對(duì)大量數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)記了。
mit識(shí)物機(jī)器人:“秒懂”物體,過(guò)目不忘,不用標(biāo)記數(shù)據(jù)!
*以來(lái),人類一直以靈巧著稱,這種特點(diǎn)在很大程度上要?dú)w功于我們的眼睛。不過(guò)現(xiàn)在,機(jī)器人也逐步迎頭趕上。經(jīng)過(guò)幾十年的發(fā)展,現(xiàn)在用于生產(chǎn)線等受控環(huán)境中的機(jī)器人已經(jīng)能夠一次又一次地拾起同一個(gè)目標(biāo)了。
近在計(jì)算機(jī)視覺(jué)方面的突破,讓機(jī)器人也能區(qū)分出不同的目標(biāo)。不過(guò)即使這樣,機(jī)器人還是無(wú)法真正理解物體的形狀,因此在拾取目標(biāo)后,幾乎無(wú)法再做什么別的事。
近日,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(csail)的研究人員在一篇新論文中表示,他們已在這個(gè)領(lǐng)域取得了一項(xiàng)重要進(jìn)展:他們打造的機(jī)器人系統(tǒng)可以識(shí)別出之前未見(jiàn)過(guò)的隨機(jī)目標(biāo),并能夠在視覺(jué)上“理解”這些目標(biāo),以完成更豐富的任務(wù)。
“密集對(duì)象網(wǎng)絡(luò)”:讓機(jī)器人讀懂抓取目標(biāo)
該系統(tǒng)名為“密集對(duì)象網(wǎng)絡(luò)”(don),該網(wǎng)絡(luò)將對(duì)象視為點(diǎn)的集合,當(dāng)作“視覺(jué)路線圖”來(lái)使用。這種方法可以讓機(jī)器人更好地理解和抓取目標(biāo),重要的是,機(jī)器人能夠在大量類似目標(biāo)中挑出特定的目標(biāo)。亞馬遜和沃爾瑪?shù)裙驹谄鋫}(cāng)庫(kù)中使用的機(jī)器就具備類似的技能。
比如,有人可能會(huì)使用don系統(tǒng)讓機(jī)器人抓住目標(biāo)上的特定位置,比如鞋舌頭。之后,它就能夠看到之前從未見(jiàn)過(guò)的鞋子,并成功抓住鞋舌頭。
參與該研究的博士生lucas manuelli說(shuō)道:“許多控制系統(tǒng)和識(shí)別方法都無(wú)法識(shí)別朝多個(gè)方向放置的目標(biāo)的特定部分。”他與該論文另一作者、博士生pete florence和mit教授russ tedrake一起撰寫(xiě)了該論文。 “比如,現(xiàn)有的算法就無(wú)法抓住馬克杯的杯柄,尤其是在馬克杯朝多個(gè)方向放置的情況下,比如直立或側(cè)放。”
該團(tuán)隊(duì)認(rèn)為,該技術(shù)不僅能用于工業(yè)制造,還能走入家庭的日常生活。比如,給系統(tǒng)展示一座整潔的房子的圖像,讓機(jī)器人在你工作時(shí)打掃房間,或向機(jī)器人展示菜肴的圖像,讓機(jī)器人在你度假時(shí)把你的餐桌上的盤(pán)子收拾好。
don抓取算法:訓(xùn)練無(wú)需標(biāo)注數(shù)據(jù)集,省時(shí)省力
值得注意的一點(diǎn)是,沒(méi)有任何數(shù)據(jù)事先被人類標(biāo)記過(guò)。這個(gè)系統(tǒng)是“自我監(jiān)督的”,因此不需要任何來(lái)自人類的數(shù)據(jù)標(biāo)注。
機(jī)器人抓取目標(biāo)的兩種常見(jiàn)方法是,創(chuàng)建特定任務(wù)的機(jī)器學(xué)習(xí),創(chuàng)建通用的抓取算法。這兩種技術(shù)都存在障礙:基于特定任務(wù)的方法很難推廣到其他任務(wù),而通用的抓取算法不夠具體,無(wú)法顧及處理特定任務(wù)時(shí)的細(xì)微差別,比如將目標(biāo)放到特定的位置上。
而don系統(tǒng)基本上是在給定目標(biāo)上創(chuàng)建一系列坐標(biāo),作為基于目標(biāo)的一種“視覺(jué)路線圖”,使機(jī)器人更好地理解自己需要抓取哪些目標(biāo),目標(biāo)在何處等。
該團(tuán)隊(duì)訓(xùn)練系統(tǒng)將對(duì)象視為構(gòu)成較大坐標(biāo)系的一系列點(diǎn)。然后將不同的點(diǎn)映射到一起,顯示出對(duì)象的三維形狀,這種方式和使用多張照片拼接全景照片的方式有些類似。在訓(xùn)練之后,如果*目標(biāo)上的一個(gè)點(diǎn),機(jī)器人可以拍攝該物體的照片,并一系列的點(diǎn)進(jìn)行識(shí)別和匹配,然后就可以*點(diǎn)拾取目標(biāo)。
這個(gè)系統(tǒng)與加州大學(xué)伯克利分校的dexnet系統(tǒng)有所不同,伯克利的系統(tǒng)可以抓取許多不同的目標(biāo),但不能滿足抓取特定目標(biāo)的要求。就好比一個(gè)一歲半的嬰兒,他不明白你想要他玩哪個(gè)玩具,但仍然可以抓起很多不同的玩具,而一個(gè)四歲的孩子,就可以準(zhǔn)確地回應(yīng)“去抓住那輛紅色小卡車的車尾”的要求。
在形狀對(duì)稱毛絨玩具上進(jìn)行的一組測(cè)試中,由don驅(qū)動(dòng)的kuka機(jī)器人手臂可以從一系列不同的目標(biāo)位置抓住玩具的右耳。這表明系統(tǒng)具有在對(duì)稱物體上區(qū)分左右的能力。
在利用不同棒球帽進(jìn)行測(cè)試時(shí),don可以選擇特定的目標(biāo)帽子,盡管所有的帽子的設(shè)計(jì)都非常相似,機(jī)器人在之前從未在訓(xùn)練數(shù)據(jù)中看到過(guò)帽子的照片。
未來(lái),團(tuán)隊(duì)希望將系統(tǒng)進(jìn)行改進(jìn),讓其具備執(zhí)行特定任務(wù)的能力,同時(shí)能夠更深入地了解相應(yīng)的目標(biāo),例如學(xué)習(xí)如何抓住目標(biāo),并將其移動(dòng)到終位置等。
團(tuán)隊(duì)將于下個(gè)月在瑞士蘇黎世舉行的機(jī)器人學(xué)習(xí)會(huì)議上發(fā)表這一成果。
(原標(biāo)題:mit識(shí)物機(jī)器人:“秒懂”物體,過(guò)目不忘,不用標(biāo)記數(shù)據(jù)!)