多智能体强化学习中使用attention机制——MAAC--Intelligent technology investment network-上海优钧机械设备科技

News Message

多智能体强化学习中使用attention机制——MAAC

by wittx 2020-11-02

文章原标题：Actor-Attention-Critic for Multi-Agent Reinforcement Learning

作者：Shariq Iqbal Fei Sha

发表的会议：ICML2019

1.方法

直接上方法部分，前面的有时间再补。

1.1. Multiagent下的Attention机制

主要思路：为每一个agent learn一个critic来选择性的关注来自其他agent的信息。

形式化：

第 $i$ 个agent的Q函数表示为 $Q_i^{\psi}(o,a)=f_i(g_i(o_i,a_i),x_i)\tag{1}$ 其中 $o=(o_1,\cdots,o_N)$ ， $a={a_1,\cdots,a_N}$ 。 $f_i$ 是一个双层的densenet， $g_i$ 是一个单层embedding函数。来自其他智能体的贡献通过加权求和后用 $x_i$ 表示：

$x_i=\sum\limits_{j\neq i}\alpha_j v_j=\sum\limits_{j\neq i}\alpha_i h(Vg_j(o_j,a_j))\tag{2}$ 很容易看出， $v_j$ 就是智能体 $j$ 对 $i$ 的影响， $\alpha_j$ 是加权系数。那这个 $v_j$ 到底怎么计算？系数 $\alpha_j$ 怎么确定？

先说用于描述其他智能体信息的 $v_j$ ，实际上是对智能体 $j$ 的embedding，表达式为 $v_j=h(Vg_j(o_j,a_j))$ 。这里面的 $g$ 和式(1)里面的定义的embedding函数是一样的，其输出左乘一个矩阵 $V$ (相当于变换 $V$ 作用于嵌入函数)。而 $h$ 函数则是逐元素的激活函数(文章里面使用的leaky ReLU)。

再说注意力机制的权重 $\alpha_j$ ，直接看定义 $\alpha_j\propto \exp(e_j^\text{T}W_k^\text{T}W_q^\text{T}e_i)\tag{4}$

即通过比较智能体 $i$ 与 $j$ 的嵌入 $e_i$ ， $e_j$ 来确定，其中 $e_i=g_i(o_i,a_i)$ 。具体来说， $W_q$ 将 $e_i$ 变为一个query， $W_k$ 将 $e_j$ 变为一个key。（看表达式，列向量转置变成行向量，与经过两个变换后的行向量相乘，形式上就得到了标量，因为 $e_j$ 和 $e_i$ 基于相同的嵌入函数因此有相同的维数，且元素为二进制）。最后再来个softmax，并使用两个矩阵的维数进行归一化，防止梯度消失。

现在可以放Q函数的结构图了

1.2. 损失函数和策略更新

Critic更新是通过最小化联合回归函数实现的 $\mathcal{L}_{Q}(\psi)=\sum_{i=1}^{N}\mathbb{E}_{(o,a,r,o)\sim D}[(Q_i^{\psi}-y_i)^2]\tag{5}$

其中 $y_i=r_i+\gamma\mathbb{E}_{a\sim\pi_{\bar{\theta}_i}(o')}[Q_i^{\bar{\psi}}(o',a')-\alpha\log(\pi_{\bar{\theta}_i}(a'|o'))]$ ， $\bar{\psi}$ 和 $\bar{\theta}$ 表示目标Critics和目标policies， $\alpha$ 用来平衡最大熵和回报。

Policy的更新的梯度计算方法为 $\nabla_{\theta_i}J(\pi_{\theta})=\\\mathbb{E}_{o\sim D,a\sim \pi}[\nabla_{\theta_i}\text{log}(\pi_{\theta_i}(a_i|o_i))(-\alpha\text{log}(\pi_{\theta_i}(a_i|o_i))+\\Q_i^{\psi}(o,a)-b(o,a_{\setminus i}))]\tag{6}$

上面这个公式，最基本的形式是 $\nabla J(\theta)=\mathbb{E}_{\tau\sim \pi_{\theta}(\tau)}[\nabla\text{log}{\pi_{\theta}(\tau)\cdot r(\tau)}]$ （原理参考这里），式(6)中基本思路是用 $-\alpha\text{log}(\pi)+Q-b$ 代替 $r(\tau)$ ，实际使用了多智能体场景下的优势函数^[1] $A_i(o,a)=Q_i^{\psi}(o,a)-b(o,a_{\setminus i})\tag{7}$ 其中, $b(o,a_{\setminus i})=\mathbb{E}_{a_i\sim\pi_i(o_i)}[Q_i^{\psi}(o,(a_i,a_{\setminus i}))]\tag{8}$

多说一句这个 $b(o,a_{\setminus i})$ ，表示固定其他智能体动作下某个动作的值函数的期望，这也是一种多智能体贡献分配的解决方案。进一步，在计算时是这样求期望的

$\mathbb{E}_{a_i\sim\pi_i(o_i)}[Q_i^{\psi}(o,(a_i,a_{\setminus i}))]=\sum_{a'\in A_i}\pi(a_i'|o_i)Q_i(o,(a_i',a_{\setminus i}))\tag{9}$

2. 实验

2.1 Setup

（1）设计实验study the scalability

这部分实验使用的是Cooperative Treasure Collection这一env。这个环境以及后面另一个实验的环境都是基于multiagent particle environment framework。

（2）设计实验evaluate attention mechanism

这部分实验使用了一个叫做Rover-Tower的env

2.2 Baselines

主要和MADDPG^[2]以及COMA^[1]进行了对比。

2.3 Results and Analysis

results

直接贴两个实验中Mean Episode Rewards训练曲线。

analysis

（1）Impact of Rewards and Required Attention分析了attention的作用并解释了右边的曲线中uniform MAAC比MADDPG差的原因：cooperative下rewards是all agents共享的，因此单个智能体的critic不需要聚焦来自其他智能体的信息来获取更高的reward（这一解释。。。感觉一般吧，可能是我没看懂\狗头）；此外单个智能体的局部信息用来预测已经可以得到很好的分数了(既然足够了，MAAC还是比uniform MAAC好啊，这个回头再去看看代码)。

实验1(Cooperative Treasure Collection)中，场景设定是完全合作，每个智能体可以观察到全局的信息。在代码中，n_visible=7，表示每个智能体可以看到7个其他智能体和treasure。那么partial obsevation会不会使性能变差呢？于是分别设定n_visible=1、2、3、4、5、6，7，得到曲线如下。结果显示部分可观测时的回报比全部观测更高，这不符合常识，我们一般认为完全观测做出的决策会更优。代码里面有一个距离远近的排序，对于collector而言，知道离自己最近的几个treasures和agents已经足够了，所以n_visible=1、2、3的时候回报比较高？

（2）scalibility

直接看图，，，

3. 代码分析

3.1 代码结构

MAAC
--algorithms
----attention_sac.py#算法
--envs
----mpe_scenarios
------fullobs_collect_trasures.py#从名字就能看出，这个是完全观测的，不是partial obs
------multi_speaker_listener.py#这两个场景和maddpg里面的场景基本一样
--utils
----agents.py
----buffer.py
----critic.py
----env_wrappers.py
----make_env.py
----misc.py
----policies.py
--main.py

2.1 Scenarios

（1）Cooperative treasure collections

场景描述：包含8个智能体(6个hunter(代码里面叫做collector)，2个bank)，其颜色和不同treasure颜色相对应(一样)。treasure有6个，每一个被收集者收集后会随机重生。hunter的任务就是收集treasure然后deposit(跑过去)到bank，而bank的任务就是尽可能多的收集hunters的treasure。

奖励设置：

对于hunter而言，既有共享奖励，又有属于自己的奖励:(a)收集到treasure它自己会得到全局的reward；(b)deposit会使得所有agents获得reward; (c)碰到其他agents则惩罚。

观测空间：np.concatenate([[位置(x,y)], [速度(v_x,v_y)], [收集到的treasure的类型编码(bank没有这个元素)], [离其他智能体的距离、速度、agent编码], [到treasures的距离、treasure类型编码]])，hunter的obsp一般是86维，bank的obsp是84维。

动作空间：one-hot：[上，下，左，右，stay]。

参考

^^a^bFoerster, J., Farquhar, G., Afouras, T., Nardelli, N., and Whiteson, S. Counterfactual multi-agent policy gradients. In AAAI Conference on Artificial Intelligence, 2018.
^Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, O. P., and Mordatch, I. Multi-agent actor-critic for mixed cooperative-competitive environments. In Advances in Neural Information Processing Systems, pp. 6382–6393, 2017.

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=547