强化学习—多智能体

Tony Wey 2024-08-20 17:01:01 阅读 88

强化学习—多智能

智能体强化学习基本概念多智能体强化学习的挑战主要方法与算法应用领域总结

纳什均衡基本定义直观理解特点应用领域计算方法总结

笔记四种常见设定多智能体下的基本概念单智能体策略梯度方法用在多智能体问题中的问题多智能体强化学习(中心化、去中心化)架构局部观测完全去中心化完全中心化中心化训练去中心化执行共享参数

总结

多智能体强化学习

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL) 是强化学习(RL)的一类扩展,专注于多个智能体(agents)在共享的环境中学习和决策的场景。与单智能体强化学习不同,多智能体强化学习需要考虑智能体之间的相互作用、协作与竞争等复杂因素。

基本概念

在多智能体环境中,通常有多个智能体同时存在,它们在同一个环境中感知、行动并获得各自的奖励。每个智能体的行为不仅影响自己的奖励,还可能影响其他智能体的行为和奖励。因此,环境的动态性大大增加。

多智能体强化学习中有几种主要的场景:

合作(Cooperative):所有智能体的目标一致,它们必须共同努力以最大化全局奖励。例如,多机器人协作完成一个任务。

竞争(Competitive):智能体之间的目标相互对立,一个智能体的成功可能意味着另一个智能体的失败。例如,棋类游戏或博弈中的对抗。

混合(Mixed):在一些情况下,智能体之间既有合作又有竞争关系。一个典型的例子是团队竞技游戏,不同的队伍之间竞争,但队伍内部的成员需要合作。

多智能体强化学习的挑战

非稳定性:在多智能体环境中,由于智能体之间的相互作用,环境对于每个智能体来说是动态变化的,这使得学习变得更加困难。一个智能体的策略更新可能导致其他智能体的策略失效。

维度灾难:随着智能体数量的增加,状态空间和动作空间的规模急剧扩大,导致计算复杂度显著增加。

协作与信息共享:在合作场景中,智能体之间可能需要共享信息或策略,以便更好地协作。但是,如何有效地共享信息并避免通信开销成为一个挑战。

探索与利用的平衡:每个智能体不仅需要在自己的策略中找到探索和利用的平衡,还要考虑其他智能体的行为变化。

主要方法与算法

独立Q学习(Independent Q-Learning)

这是一个简单的MARL方法,每个智能体独立地执行自己的Q学习算法,忽略其他智能体的存在。虽然简单,但在竞争和复杂的合作环境中效果有限。

集中式学习和分布式执行(Centralized Training with Decentralized Execution, CTDE)

这种方法在训练期间使用全局信息,包括所有智能体的状态和动作,然后在执行时,各个智能体仅根据本地观测采取行动。CTDE 是目前多智能体强化学习中非常流行的框架。

联合策略(Joint Policy)

在这种方法中,所有智能体被看作是一个联合智能体,通过一个联合策略来决定在每个状态下所有智能体的联合行动。这种方法适合于完全合作的场景。

混合策略学习(Mixed Policies Learning)

智能体可以学习多个策略,并根据环境的变化动态选择合适的策略。这在混合合作-竞争的环境中特别有用。

深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)

这是一个广泛使用的多智能体算法,在CTDE框架下工作。它使用集中式的 Q 函数来指导每个智能体的策略更新,但执行时每个智能体是分布式的。

注意力机制与通信

在复杂环境中,智能体可能需要通过通信或注意力机制来更有效地共享信息和协作。这种方法可以显著提高在复杂合作任务中的表现。

应用领域

多智能体强化学习被广泛应用于以下领域:

机器人群体控制:如无人机编队、机器人协作等。游戏AI:如团队竞技游戏中的AI对手或队友。交通系统:如多车队列管理、智能交通信号控制等。金融市场:如多代理人间的市场交易和策略竞争。能源管理:如智能电网中的能源分配与调度。

总结

多智能体强化学习是强化学习中的一个重要分支,涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战,如非稳定性、维度灾难以及智能体之间的协作与竞争。然而,随着算法的不断进步,MARL 在多个复杂应用领域中显示出巨大的潜力和前景。

如果有更多的具体问题或需要深入讨论某个方面,欢迎继续提问!

纳什均衡

Nash Equilibrium(纳什均衡) 是博弈论中的一个核心概念,用来描述在一个多人参与的博弈中,各个参与者(玩家)在已知其他玩家策略的情况下,无法通过单方面改变自己的策略来获得更好的收益。这意味着在纳什均衡状态下,每个玩家的策略都是对其他玩家策略的最佳回应。

基本定义

在一个包含多个玩家的博弈中,每个玩家都有一个策略集

Σ

i

\Sigma_i

Σi​,以及对应的收益函数

u

i

(

σ

1

,

σ

2

,

,

σ

n

)

u_i(\sigma_1, \sigma_2, \dots, \sigma_n)

ui​(σ1​,σ2​,…,σn​),其中

σ

i

\sigma_i

σi​表示玩家 i 选择的策略。纳什均衡可以形式化地定义为:

一个策略组合 (

σ

1

,

σ

2

,

,

σ

n

\sigma_1^*, \sigma_2^*, \dots, \sigma_n^*

σ1∗​,σ2∗​,…,σn∗​)是一个纳什均衡, 如果对于每一个玩家i,有:

u

i

(

σ

2

,

,

σ

i

,

,

σ

n

)

u

i

(

σ

1

,

σ

2

,

,

σ

i

,

,

σ

n

)

u_{i}(\sigma_2^*, \dots, \sigma_i^*, \dots, \sigma_n^*) \geq u_i(\sigma_1^*, \sigma_2^*, \dots, \sigma_i, \dots, \sigma_n^*)

ui​(σ2∗​,…,σi∗​,…,σn∗​)≥ui​(σ1∗​,σ2∗​,…,σi​,…,σn∗​)

这表示玩家 i 的最优策略

σ

i

\sigma_i^*

σi∗​ 给出的收益不小于在其他所有策略

σ

i

\sigma_i

σi​ 下得到的收益,前提是其他玩家都保持他们的均衡策略不变。

直观理解

纳什均衡的一个简单例子是经典的“囚徒困境”:

情境:两名犯罪嫌疑人被警察抓住并分开审问。每个嫌疑人都有两个选择:招供或沉默。收益

如果两人都招供,每人各得 5 年刑期。如果两人都沉默,每人各得 1 年刑期。如果一个人招供而另一个人沉默,招供者将被释放,而沉默者将被判 10 年刑期。

在这个例子中,招供是每个嫌疑人的纳什均衡策略,因为如果假设对方已经选择了招供,那么无论自己选择什么,结果都会更差(沉默得到 10 年,而招供只有 5 年)。因此,两个嫌疑人都会选择招供,尽管这对他们整体而言并不是最优的选择。

特点

稳定性:在纳什均衡中,每个玩家都选择了一个最优策略,在其他玩家的策略固定的情况下,没有任何玩家有动机单方面改变自己的策略。可能不唯一:一个博弈可能存在多个纳什均衡,有些均衡可能是纯策略均衡(玩家只选择一个策略),而有些可能是混合策略均衡(玩家以某种概率分布选择策略)。不一定是全局最优:纳什均衡的收益对所有玩家来说不一定是最大化的。某些情况下,纳什均衡可能会导致“次优”的结果(如囚徒困境)。

应用领域

纳什均衡在许多领域都有广泛应用,包括:

经济学:用于分析市场竞争、定价策略和拍卖机制。政治科学:用于研究国际关系和战略互动。生物学:用于解释物种间的竞争和合作行为。计算机科学:用于多智能体系统中的策略设计和网络安全。社会科学:用于理解群体行为和公共政策的影响。

计算方法

纯策略纳什均衡:通过分析各玩家的收益矩阵,找到每个玩家的最优策略组合。混合策略纳什均衡:使用数学方法(如线性规划或固定点算法)来计算玩家选择不同策略的概率分布,以达到均衡。

总结

纳什均衡是博弈论中描述策略稳定性的重要概念。在纳什均衡下,每个玩家的策略都是最佳回应,没有人有动力去单方面改变自己的策略。尽管纳什均衡在某些情况下并不一定是全局最优的策略组合,但它在解释和预测多方互动中的行为方面具有广泛的应用和影响。

如果你有其他问题或需要进一步探讨,请随时告知!

笔记

四种常见设定

合作:多个智能体合作大成一个共同目标,共同努力以最大化全局奖励。例如工业机器人合作装配汽车。竞争:一方的收益是另一方的损失。例如棋类游戏或博弈中的对抗。混合:智能体之间既有合作又有竞争关系。一个典型的例子是团队竞技游戏,不同的队伍之间竞争,但队伍内部的成员需要合作。利己:只关注自身最大化收益,自身不关注其他智能体的情况,但自身的决策动作也会影响环境和其他智能体。

多智能体下的基本概念

状态、动作、状态转移

请添加图片描述

回报

请添加图片描述

返回

请添加图片描述

策略网络

请添加图片描述

请添加图片描述

状态价值函数

请添加图片描述

请添加图片描述

智能体的策略学习:

判断网络收敛的标准是函数J的值停止上升。

请添加图片描述

智能体策略学习:

判断收敛的标准是:纳什均衡

请添加图片描述

智能体策略梯度方法用在多智能体问题中的问题

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

智能体强化学习(中心化、去中心化)

架构

完全去中心化:智能体都是独立的个体,每一个智能体独立和环境交互,用自己的观测和回报去更新自己的策略。智能体之间不交流。完全中心化:所有智能体都将信息传给中央控制器。中央控制器给所有智能体作出决策。中心化训练去中心化执行:训练时,有一个中央控制器收集所有智能体的观测、动作、奖励。训练好之后。每个智能体用训练好的策略网络作出动作决策。

局部观测

请添加图片描述

完全去中心化

本质是单智能体的策略学习

请添加图片描述

请添加图片描述

完全中心化

训练和决策都需要中央控制器来操作。每个agent没有自己的策略网络和价值网络。

训练时:

请添加图片描述

执行时:

请添加图片描述

请添加图片描述

请添加图片描述

缺点:

请添加图片描述

中心化训练去中心化执行

训练需要中央控制器来操作。每个agent有自己的策略网络,但是价值网络都在中央控制器上。中央控制器只是用来帮助训练的,执行动作都是每个agent用自己训练好的策略网络结合自己的局部观测来决策。

训练时:

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

执行时:

请添加图片描述

共享参数

是否共享参数取决于具体应用。每个智能体功能不同,则不共享参数;若功能都相同可以相互替换,则可以共享参数。

请添加图片描述

请添加图片描述

请添加图片描述

总结

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。