Facebook AI的算法可以改善自动驾驶汽车的性能

您现在的位置是：首页 > 快讯

Facebook AI的算法可以改善自动驾驶汽车的性能

2020-04-30 03:00:44

（文章来源：教育新闻网）

Facebook AI研究人员的一个团队最近开发了一种算法，即“其他游戏(OP)”，该算法构建的策略可以使未经其他代理商训练的代理商获得高回报(零镜头协调的一种形式)。如果要求不高，这项工作可以大大提高自动驾驶汽车的性能，自动驾驶汽车利用零击协调在道路上的障碍物和驾驶员周围导航。

研究人员研究了马尔可夫游戏，即仅依赖于以一种或另一种方式总结游戏历史的变量的游戏。(例如，变量可以是重复游戏中的当前游戏，也可以是最近游戏序列的任何解释。)游戏是部分可观察的，并且其玩家(由AI驱动的特工)共享以联合奖励为条件的奖励他们采取的行动和游戏状态。因此，目标是使期望收益最大化。

AL t4518528778568704 Facebook AI的算法可以改善自动驾驶汽车的性能

在实验中，该团队将OP(它使用问题描述来协调代理人而不是动作标签)应用于一种杠杆游戏，其中要求代理人从10个杠杆中选择一个来与未知的陌生人进行协调。他们说，在训练阶段和测试时间，OP代理与其他OP代理配对时都执行零击协调。相比之下，互相竞争以发现策略的自我扮演代理在训练阶段获得了较高的回报，但未能与其他独立训练的自我扮演代理进行协调。

接下来，研究人员将OP应用于合作式纸牌游戏Hanabi。在哈纳比(Hanabi)，从总共有五张牌的一手牌中发给玩家。每回合，他们必须(1)在另一位玩家的手上露出纸牌的花色或号码，(2)丢弃纸牌，或(3)玩一张尚未打过的花色为“ 1”的纸牌或下一顺序号的西装是已被播放。我们的目标是通过每套打出的最高张牌的价值来获得最高分-这项任务比听起来要更具挑战性。公开有关卡的信息消耗了八个可用信息令牌之一，只能通过丢弃或成功打出“ 5”的任何西装来补充。同时，打牌失败会消耗三种可用之一融合令牌。

根据研究人员的说法，OP改善了交叉游戏，从而消除了自游戏中出现的“不人道”惯例，这对于人类来说通常是很难(或不可能)理解的。(例如，在没有OP的情况下，自打特工可能会提示某种颜色，以表示它丢弃了一张牌，而其伙伴则将此解释为在玩另一张牌。)
? ? ? （责任编辑：fqj）

上一篇：紫外线传感器GUVC-T21GH的特性及应用研究

下一篇：研究人员开发一种AI工具，可加快冠状病毒的分析速度

Facebook AI的算法可以改善自动驾驶汽车的性能

相关文章

文章排行

栏目更新