机器(qì)人学习目前已经被广泛应用于现(xiàn)实世界(jiè),并可以完成精密的手部、腿部动作。但在动态(tài)且(qiě)高速的(de)人机(jī)互动中,机器人学习并不常见。谷歌选(xuǎn)择开发乒乓(pāng)球机器人,正是为了探索这(zhè)类情况(kuàng)下人工智(zhì)能的(de)可能性。
·使用i-Sim2Real这种方式,在模拟环境下可以(yǐ)让数年的实时(shí)训练(liàn)在几分钟或(huò)几小时(shí)内完成。
谷歌i-Sim2Real项目乒乓(pāng)球(qiú)机器人与人(rén)类训练。本(běn)文(wén)图片来(lái)源:谷歌
似乎现存的(de)每一种桌上运动中,人工智能都立(lì)于不败之地。乒乓球竞技中(zhōng),谷(gǔ)歌AI同样难逢(féng)敌手。10月18日,谷歌(gē)公(gōng)布其正(zhèng)在研究的“乒乓球机器人”项(xiàng)目(mù),在与人类对(duì)打(dǎ)时一回合可接球340次。目前,谷歌强调这(zhè)只(zhī)是(shì)人类与(yǔ)AI的“合作”,并非击败人类,但以AI成长的(de)速度,它将很快(kuài)成为专业选手。
机器(qì)人学习目前(qián)已经被广泛应用于现实世界,并可以完成精密的手部、腿部动(dòng)作。但在(zài)动态且高速(sù)的人机互动中,机(jī)器(qì)人学习(xí)并不常见。谷歌选择开发乒乓(pāng)球机器人,正是(shì)为了探索(suǒ)这(zhè)类情况下人(rén)工(gōng)智(zhì)能的可能(néng)性。
解决“先有鸡(jī)还是(shì)先(xiān)有(yǒu)蛋”
在这个名(míng)为i-Sim2Real的项目中,谷歌的乒乓球(qiú)机器人在(zài)模拟环境中不(bú)断学习(xí),并将学习成(chéng)果运用于现实(shí)世(shì)界,最终可以(yǐ)在一个与(yǔ)人类的乒乓球(qiú)接(jiē)发回合中,接球超(chāo)过三(sān)百(bǎi)次(cì)。它还能把球送回不同的区(qū)域,虽然(rán)不能精确到数(shù)字上(shàng),但已经(jīng)足(zú)够精确到让(ràng)机器人规划(huá)策略(luè),来(lái)控制乒乓球的最终目(mù)的地。
i-Sim2Real也不仅仅是关于(yú)乒乓球机器(qì)人,更是一种人工(gōng)智能创造过程的(de)方式,在这个过程中,机器学习模型被教会(huì)在虚拟(nǐ)环(huán)境或模拟中做什么,然后(hòu)再(zài)应用这些知识(shí),目标是尽可能长时间地与人类进(jìn)行接(jiē)球回合而不失误(wù)。在现实世界中直接与人类(lèi)玩(wán)家(jiā)进行(háng)训练(liàn)既繁琐(suǒ)又耗时,当需要数年的试验和错误(wù)才能建立一个工作模型时,使用i-Sim2Real这种方式显(xiǎn)得十分有效,它在模拟环境(jìng)下可以(yǐ)让数年的实时训练在(zài)几分钟或几小时内完成(chéng)。
这(zhè)种(zhǒng)方式(shì)听起来简单高(gāo)效(xiào),但在模拟中机器人并不是万能的。人类的(de)活(huó)动具有(yǒu)一定的不可预测性(xìng),并不容易(yì)模拟,需要先有人类的(de)行(háng)为模型作为(wéi)支撑(chēng)。而人类的行为(wéi)模型,又需要与机器人(rén)互动获得(dé)。这就陷入了(le)一(yī)个“是先有鸡(jī)还是先(xiān)有蛋”的死(sǐ)循(xún)环。
i-Sim2Real解决这(zhè)一鸡和蛋问(wèn)题的(de)方法,是使用一个简单的(de)人(rén)类行为模型作为近似起(qǐ)点(diǎn),并(bìng)让机(jī)器人在模(mó)拟训练(liàn)和现实训练之间交(jiāo)替学(xué)习。在每次(cì)迭代中(zhōng),都会(huì)细化人(rén)类行(háng)为模型和策略。在机(jī)器(qì)人接近人类行为的过程中,初期的不理想是可以(yǐ)接受的,因为机(jī)器(qì)人也只是刚刚开(kāi)始学习,之后每一场比赛(sài)都会收集更多真实(shí)的人类数据(jù),提(tí)高准确性(xìng),让AI学(xué)到更多。
i-Sim2Real的训练方法。
GoalsEye:通过自我监督来(lái)自主练习
除了i-Sim2Real这种模拟与现实交(jiāo)替进(jìn)行的方法(fǎ),研究(jiū)人员也在探(tàn)索(suǒ)只使用现实的数据(jù)学习的方法,即GoalsEye项(xiàng)目。
一开始(shǐ),模仿学习(IL)为研究(jiū)人员提供(gòng)了一种简单而稳定的思路,但它需(xū)要人类行为进行演示,并且机器人的技(jì)术无法超过演示者的水平。同时,当演示者(zhě)拥有(yǒu)在高速环(huán)境下精(jīng)确接球的(de)能力时,收集其数(shù)据具有(yǒu)一(yī)定挑战性,而且在(zài)刚开始时可能非常(cháng)低效。因此研究人员(yuán)尝试了(le)一种(zhǒng)结(jié)合(hé)最近行为进行重复的方法,从(cóng)一个小的(de)、结(jié)构薄弱的、非目标数据集开始(shǐ),不(bú)断学习精确(què)定位(wèi)目标的(de)策略。
这种方法使得在训(xùn)练(liàn)的(de)过程中(zhōng),机器(qì)人的自(zì)主学习能(néng)力显得至关重要(yào)。研究人员设置了一个强调精度的乒乓球(qiú)任(rèn)务,要求机器人将球返回到桌子上(shàng)的任意目标位置。机器人可以通过自(zì)我监督(dū)来实现自主练习。例如,机器人可以(yǐ)设置随机(jī)目标,“击中左(zuǒ)后(hòu)角”或“将球从右侧过网(wǎng)”,并尝试使用当前掌握的策略来实现这(zhè)些(xiē)目标,从而(ér)不断(duàn)改(gǎi)进。所有尝试都(dōu)会记录(lù)并添加到(dào)不断扩展的数(shù)据集中(zhōng)。这种自(zì)主练习是反复(fù)进行的,机器人通过不断(duàn)的设置随机目标(biāo)并尝试目标(biāo),从(cóng)而扩展训练(liàn)数据,调整策略。
GoalsEye策略(luè)旨在实现直径20厘米的目标(左)。人(rén)类玩家瞄准(zhǔn)同一个目标(右(yòu))。
GoalsEye的训练方法(fǎ)。
其(qí)效果也是显而易(yì)见的,在进行最(zuì)初(chū)的2480次(cì)人(rén)类(lèi)行为(wéi)演(yǎn)示后(hòu),机器人只(zhī)在(zài)9%的情况下能准确地达到(dào)距离目标30厘米以内(nèi)的(de)目标。然而,当机器(qì)人又自主练(liàn)习了(le)大约13500次后,达到目标的准确率上升到43%。同时,演示数量的提(tí)升提高了后续自我练习的效(xiào)率,这(zhè)说明,计算时间、成本等因素后,演示可以适当替换自我(wǒ)练习,从而更高(gāo)效的进行训练。
在(zài)这(zhè)两个使用机(jī)器人乒乓(pāng)球研究平台的互补项目(mù)中,i-Sim2Real可以在模拟(nǐ)与现实中交(jiāo)替学(xué)习策略,而GoalsEye则证明,从现实世(shì)界的非结构化数(shù)据中(zhōng)学习,结合自我(wǒ)训练,对于在精(jīng)确且动态的要(yào)求中学习目标条件策略是(shì)有效的。