DeepMind训练AI踢足球
DeepMind
在2016的围棋人机大战後,Google姐妹公司DeepMind科学家开发的新AI系统,可学习人类动作,学习成为一组虚拟足球队。
DeepMind在科学期刊《Science Robotics》公布一篇论文,披露该公司的NPMP(neural probabilistic motor primitive)模型如何从人或动物动作中学习复杂技能,并以代理程式或实体机器人,将技能体现出来,像是踢足球。
DeepMind科学家指出,足球向来是体现智慧(embodied intelligence)研究的一大挑战,因为足球是结合个人技能及团队合作的运动。DeepMind使用NPMP模型为基础引导学习足球的动作技能。
NPMP(neural probabilistic motor primitive,NPMP)是一组通用运动控制AI模型,能将立即的运动意图转化为低阶控制讯号。NPMP是在离线环境下训练,或是模仿感测器蒐集到人或动物的资料(称为运动捕捉motion capture/MoCap资料),透过增强式学习(reinforcement learning)训练。
图片来源/DeepMind
这个模型包含两部份,一是编码器(encoder),其功用是把未来动作轨迹压缩进运动意图。第二个部份为低阶控制器。低阶控制器能依代理程式目前状态及现有运动意图,产生下个动作。
低阶控制器能被包成一个可插拔式的运动控制模组,可重覆利用以便学习新技能,并由经过最佳化的高阶控制器直接输出运动的意图。DeepMind指出,这可以让探索过程更有效率,并限缩最後的解决方案。
利用NPMP,DeepMind的「球员」(即代理程式)从学习追球的技能开始逐渐学会如何合作。DeepMind过去一项专案中,两组互相竞争的团队出现合作行为。在最新专案中,NPMP也出现同样行为,不同的是,这个情境需要更高阶的运动控制能力。
DeepMind的代理程式学到的技能包括灵敏的移动、传球及分工合作。「球员」们展现出灵敏的高频运动控制,及掺杂预期队友行为的长期决策,形成足球的团体战。
AI模型学习以手臂和物件互动是另一个控制挑战。研究团队以少量搬箱子的动作捕捉资料,包括第一人视角及少数回馈讯号,即可训练NPMP的代理程式将一个箱子由一地搬到另一地。另外也能训练代理程式接、抛球、或是执行在迷宫中蒐集目标物的任务。
这个NPMP模型还能用来控制真正的机器人。DeepMind利用人类及狗的动作捕捉资料训练NPMP技能及控制器,然後分别部署到真正的人形机器人(OP3)及四脚机器人(ANYmal B),这让使用者可以透过控制杆控制机器人,或者以自然动作将球运到目的地。他们证实,NPMP可以既有生物动作资料为基础训练,学习高度规律化、自然及可重覆使用的动作技能,再由真正的机器人体现出来。