欢迎来到海口互联网
Time:

您的位置: 首页 >> 游戏

UCL教授汪軍多智能體強化學習的兩大挑戰

2019.08.23 来源: 浏览:17次

UCL 教授汪军:多智能体强化学习的两大挑战

2017 年 7 月 7 日,由中国计算机学会(CCF)主办,与香港中文大学(深圳)承办的 CCF - GAIR 大会,在深圳大中华喜来登酒店开幕在 AI 学术前沿专场的第三场, 伦敦大学学院 UCL 的汪军教授带来了以《群体智能的社会》为主题的报告报告内容请看本篇的现场速记

汪军, 伦敦大学学院(UCL)计算机系教授、互联科学与大数据分析专业主任主要研究智能信息系统,主要包括数据挖掘,计算广告学,推荐系统,机器学习,强化学习,生成模型等等他发表了100多篇学术论文,多次获得最佳论文奖是国际公认的计算广告学和智能推荐系统杰出华人专家

汪军:潘院士今天早上讲了人工智能 2.0其中的一个方向,是多个智能体之间的协作与竞争我们还可以从社会学角度,把多智能体看作是一个群体;研究整个群体、动态系统的特性是什么对于该话题,我希望给大家做一个介绍

大家都了解 AlphaoGo,它的一项核心技术就是强化学习相比模式识别和监督学习,它在缺乏训练数据集的情况下仍然可以工作强化学习系统能够直接和环境交互,得到反馈信息,在此过程中不断学习,因此更加自然、灵活强化学习的一项主要特性,是以收益(reward)定义目标方程,生成优化策略

多智能体的强化学习

今天重点讲的,是多智能体的强化学习它们单独的和环境进行交互在一种情况下它们各自优化自己的目标,但这些目标之间有约束;另一种情况下,它们联合起来优化一个主要的目标方程根据具体的情况会有不同的变化

案例 1:互联广告

过去,我们再互联广告领域做了很多工作,比较早得应用了强化学习方法:在环境交互的情况下,根据投放广告以后用户的反馈,系统不断地进行学习

目前我们可以在 10 毫秒之内做好决策,在每天 10 亿流量的情况下进行分析,帮助广告主精准投放

案例 2:星际争霸

我们通过对星际争霸单位的控制,找到多智体的规律研究它们在游戏里怎么合作、竞争与通讯近几个月,我们和阿里巴巴合作开发了一套玩星际争霸的 AI 系统该项目中,我们最想解决的是 AI 智体之间的通讯问题——当它们想合作起来攻打对方的时候,必须要有效地合作我们希望在计算的时候,计算量相对较小,同时又达到智体的协同目的;于是采用了一种双向连通方式,效果非常明显

目前,多智体强化学习的研究仍处于非常初步的阶段这里,有两个方面的关键问题:

问题 1:多智体协同研究中,智体数量少目前的研究,主要集中于少量多智体之间的协同在有上万个智体的情况下,(应用研究成果的)效果就不是很明显而许多现实场景中的多智体数量,可以达到百万、甚至千万级

案例 3:智能打车 APP

一个很明显的例子是Uber、滴滴等智能打车应用

这类例子中,每个用户手上的终端、每个司机手上的终端,你都可以把它们想象成智能体它们可以做出决定:到底什么样的价钱我可以接受系统层面甚至可以有一套机制合理分配资源比如,出行高峰出租车比较少,但是需求量又比较大而在其它的一些时候,可能出租车很多,但是需求量不大系统怎么调配,这其实需要一个非常大的人工智能协作系统来分析

案例 4:共享单车

共享单车的情况更加明显你可以想象,如果给每个自行车装了芯片或者计算机,它就是一个很智能的东西,可以根据目前的情况,优化车辆的地理位置分布

今天,如果要做一个强化学习的模型,这个模型必须要可以处理百万级的智体只有在这个量级,我们才可以把人工智体组成的群体和生物群落做对比,观察宏观层面的活动规律

应该怎么去做我们可以从自然界里面获得一些启发比如生态学的 self-organisation (“自组织”)理论:一些个体行为的简单规则,能造成种群层面的宏观规律我们研究的课题之一,是探索多智能体组成的群体, 和自然界中的动物群体,是否有相通之处其活动模式是否遵循同一套规律

案例 5:Lotka-Volterra 模型

这里,有一个动物界的著名模型名为 Lotka-Volterra (LV)模型该模型描述的是:相互竞争的两个种群,它们种群数量之间的动态关系

我们根据该模型的理论,用深度学习和强化学习做了一个老虎和羊的多智体生态模型我们发现,如果关掉智体的学习能力(比如老虎),它们无法适应新环境,生态系统很快崩溃

而给智体学习能力之后,模型出现的现象,与 LV模型中猞猁抓兔子的动态现象十分相似模拟出来的多智体生态,和自然世界的生态圈都遵循一种动态的平衡,就好比多个 AI 智体形成了一个动物种群这让我们十分惊奇,人工智能体和生物群体可能有许多共同规律

这个研究很有意思的一点是,我们发现有这样的场景:智体之间可以联合在一起优化某一个目标,或者单独优化它们自己的目标当出现这两种情况的时候,作为一个群体,他们就有了内在的规律如果把这些规律找到,对于我们去开发一些新的模型、新的计算机人工智能的方法,是非常有帮助的

问题 2:缺乏对多智体环境控制的研究案例 6:宜家

传统强化学习没有深入探索过多智体环境问题,而往往把它作为一个假设前提:要么假设这个环境是不变的,要么假设这个环境有一定的概率在不断变化而这个概率是不变的(not designable),意味着无法设计这个环境,而是更加适应这个环境但是实际情况下发现,很多场景下,环境本身也需要一个适应的过程在宜家的热力图上,我们可以看出谷歌在商场里的活动是非常平均的,这是一个非常好的现象我们可以开发一个强化学习算法,让环境(商品摆放)根据顾客的变化而变化鉴于此,我们在 UCL 的团队首创了对多智体环境的控制,并研究如何学习环境的深层因素

这是一个建筑系教授进行的研究,他做了一个地图模拟人在店铺里面走的情况,根据热力图反馈到铺面设计,来优化用户在这里面待的时间,或者说最大化用户可能消费的情况

案例 7:分拣机器人

单个智体(机器人)要进行优化,以最快的路径分拣快递包裹这个环境未必是最优的,我们根据货物的统计特性,设计我把发往南京的包裹通道放在北京旁边还是放在上海旁边所以环境也需要很好的考量和设计

案例 8:迷宫

一个人工智体,需要以最快的效率找到出口而环境知道其智能水平,根据情况来设计迷宫,使得智体有最困难或者最小的概率可以出去这是一个竞争的关系

怎么优化呢你会发现,该系统在两个不同的维度进行在人工智体的情况下,它会说给定一个环境,我想以最快的效率、最优的策略走出来当你把这个人工智体学到的东西定住以后,就可以在另外一个维度优化环境:现在这个智体是这样的属性,能不能据此使得环境更困难这两个维度互相竞争、互相迭代,就可以达到优化的情况(公众号:)

相关文章:

CMU教授金出武雄演讲:户外机器人系统 | CCF-GAIR 2017

中科院院士谭铁牛:模式识别研究的回顾与展望 | CCF-GAIR 2017

AAAI主席Subbarao:机器的学习过程与人类不一样 | CCF - GAIR2017

第二届 CCF-GAIR 开幕中国 AI、机器人行业产学研跨界整合进入新时期| CCF-GAIR 2017

原创文章,未经授权禁止转载详情见转载须知

薏芽健脾凝胶服用说明

新生儿能喝四磨汤吗

分销管理软件

宝宝脾虚吃什么药
新生儿眼睛有眼屎
宝宝如何健脾胃
Tags:
友情链接
海口互联网