训练机器人发现游戏中的漏洞
如果你曾经玩过一款在线视频游戏,那么你很可能是在和一个机器人竞技——一个由人工智能驱动的程序,在游戏中代表人类角色。
许多机器人都是通过深度强化学习(deep reinforcement learning)创建的,这是一种训练算法,学习如何通过奖励系统实现复杂的目标。但是,据宾夕法尼亚州立大学信息科学与技术学院的研究人员称,使用经过深度强化学习训练的游戏机器人,攻击者可以利用欺骗手段轻松击败他们。
为了解决这种风险,研究人员设计了一种算法来训练一个对抗性机器人,它能够自动发现并利用由强化学习算法驱动的主游戏机器人的弱点。他们的机器人随后接受训练,在屡获殊荣的电脑游戏《星际争霸2》中击败一个世界级的人工智能机器人。
研究信息科学与技术的博士生郭文波说:“这是第一次在现实世界的电子游戏中证明其有效性的攻击。”随着深度强化学习在一些流行游戏中的成功应用,比如Go中的AlphaGo和星际争霸中的AlphaStar,越来越多的游戏开始使用深度强化学习来训练游戏机器人。”
他补充道,“我们的研究揭示了使用深度强化学习训练的代理作为游戏机器人的安全威胁。开发人员将更仔细地学习如何采用游戏代理
郭和他的研究团队于8月在美国黑帽会议上展示了他们的算法,这是世界上最具技术性和相关性的信息安全事件系列的一部分。他们还公开发布了他们的代码和各种敌对的人工智能机器人。
宾州州立大学信息科学与技术助理教授邢新宇说:“通过使用我们的代码,研究人员和白帽黑客可以训练他们自己的对手代理人,掌握许多电子游戏的训练方法。”
郭总结道,“更重要的是,游戏开发者可以利用它发现游戏机器人的漏洞,并迅速采取行动修补这些漏洞。”
除了邢,郭还与宾夕法尼亚州立大学(Penn State)信息学专业的博士生吴贤武(Xian Wu)和JD安全研究中心高级主任Jimmy Su合作开发了该算法。
关键词:解决方案,机器人,创新技术