中新網(wǎng)北京11月29日電 (記者 孫自法)備受矚目的人工智能研究應(yīng)用,又迎來(lái)一項(xiàng)新突破。施普林格·自然旗下學(xué)術(shù)期刊《自然-通訊》最新發(fā)表一篇論文稱,研究人員研發(fā)出一個(gè)人工智能(AI)體(智能體),在3D模擬中,該智能體能在第一次見(jiàn)到的任務(wù)中實(shí)時(shí)模仿專家。
論文作者指出,該智能體能從第三人稱視角實(shí)時(shí)可靠地獲取來(lái)自人類搭檔的知識(shí),這項(xiàng)研究結(jié)果是對(duì)具身AI實(shí)現(xiàn)快速知識(shí)傳播的一次概念驗(yàn)證,也是朝著人類-AI互動(dòng)的開(kāi)放式文化演變邁出的第一步。
該論文介紹,之前在物理模擬和現(xiàn)實(shí)世界機(jī)器人中已經(jīng)證明了用人類數(shù)據(jù)讓具身AI智能體學(xué)習(xí)新技能的效果。過(guò)去的智能體通常需要在監(jiān)督下從大量第一人稱的人類演示中學(xué)習(xí),這類演示的獲取既昂貴又費(fèi)時(shí)。相比之下,人類本身可以通過(guò)模仿示范者,在幾秒內(nèi)以互動(dòng)方式學(xué)會(huì)新技能,即使嬰兒也有這種能力。因此,研究人員一直在尋求一種AI智能體,能從效率和隱私與人類相仿的其他個(gè)體那里進(jìn)行社會(huì)化學(xué)習(xí)。
論文通訊作者、位于英國(guó)倫敦的谷歌DeepMind的Edward Hughes和同事一起,利用深度強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)智能體,這個(gè)智能體能在名為GoalCycle3D的物理模擬任務(wù)空間里,幾分鐘內(nèi)發(fā)現(xiàn)和模仿新專家的行為,并記住所學(xué)知識(shí)。訓(xùn)練后,他們發(fā)現(xiàn)這個(gè)智能體可以在各種有挑戰(zhàn)性的導(dǎo)航問(wèn)題中從人類和AI專家這里快速學(xué)習(xí),雖然它們以前從來(lái)沒(méi)見(jiàn)過(guò)人類。
比如,這個(gè)智能體可以在包含大量障礙的復(fù)雜地形中穿梭。該方法的一個(gè)關(guān)鍵是一種新形式的自動(dòng)化課程,該課程結(jié)合了示范者的階段性遮蔽以及任務(wù)難度的逐步升級(jí)。研究人員發(fā)現(xiàn),這個(gè)智能體的個(gè)體神經(jīng)元是可解釋的,而且能同時(shí)編碼物理信息和社會(huì)信息。
論文作者總結(jié)表示,這項(xiàng)研究結(jié)果為 AI領(lǐng)域和文化演化心理學(xué)之間的密切互動(dòng)奠定了基礎(chǔ)。他們認(rèn)為,AI從業(yè)者可從人類社會(huì)學(xué)習(xí)中汲取靈感,構(gòu)建出適應(yīng)當(dāng)下人類伙伴的具身智能體,并保護(hù)好隱私。此外,能社會(huì)學(xué)習(xí)的AI智能體或?yàn)檠芯咳祟愇幕芰Πl(fā)展提供新的建模工具。(完)
責(zé)任編輯:王雨蜻