主页> 国内>

传世养生秘笈

深度强化学习:从最初到掌握:以厄运为例,向你展示如何阅读深度Q学习(下)

本文是人工智能研究所编撰的技术博客,原名:DeepQ-

本文是人工智能研究所编写的技术博客。原名为:

深度Q学习导论:让我们玩厄运

作者托马斯·西蒙尼

翻译家斯蒂芬·尔·狗

校对酱梨整理菠萝女孩

链接到原始文本:

http://medium.freecodecamp.org/an-introduction-to-deep-q-learning-lets-play-doom-54D02D8017D8

深度强化学习:从最初到掌握:以厄运为例,向你展示如何阅读深度Q学习(第三部分)

本文是TensorFlow强化学习课程的一部分。单击此处查看教学大纲。

上一次,我们学习了Q-Learning:一种生成Q表的算法,代理使用它来找到在给定状态下要采取的最佳操作。

但是我们可以看到,当状态空间是一个大环境时,生成和更新Q表可能会失败。

本文是一系列关于强化学习的博客文章的第三部分。有关更多信息和资源,请参阅本课程的教学大纲。

今天,我们将创建一个深度Q神经网络。我们没有使用Q表,而是实现了一个神经网络,它获取代理的状态,并为状态的每个动作计算Q值。

多亏了这个模型,我们将能够创建一个代理,学习如何玩厄运!

我们的DQN代理

在本文中,您将了解到:

什么是深度Q学习(DQL)?

使用DQL的最佳策略是什么?

如何处理时间限制

为什么我们要用体验回放

DQL背后的数学原理是什么?

如何在TensorFlow中实现它

在Q-Learning中添加"深度""

在最后一篇文章中,我们通过Q学习算法创建了一个代理来充当冻结湖。

我们实现了Q学习功能来创建和更新Q表。根据目前的情况,这可以看作是一个"作弊清单",帮助我们找到最预期的未来的行动激励。这是一个很好的策略-但是这种方法不可扩展。

想象一下我们今天要做什么。我们将创造一个学会玩命的特工。

厄运是一个巨大的环境,有着巨大的国家空间(数百万个不同的国家)。为这个环境创建和更新Q表的效率是可以想象的。

在这种情况下,最好的办法是创建一个神经网络,它将在给定的状态下近似每个动作的不同Q值。

深度Q学习如何工作?

深度Q学习的框架:

这可能看起来很复杂,但我将逐步解释架构。

我们的深Q学习神经网络以四帧图像的叠加作为输入。它们通过网络输出给定状态下每个可能动作的Q值向量。我们需要使用这个向量的最大Q值来找到我们的最佳操作。

起初,特工的行为很恶劣。但随着时间的推移,它开始将图像帧(状态)与最佳操作联系起来。

预处理工段

预处理是一个重要的步骤。我们希望减少状态的复杂性,以减少训练所需的计算时间。

首先,我们可以使每个状态变灰。颜色不增加重要信息(在我们的情况下,我们只需要找到敌人并杀死他,我们不需要颜色来找到他)。这是一个重要的节省,因为我们将三色通道(RGB)减少到1(灰度)。

然后我们切下图像。在我们的示例中,看到屋顶并不是很有用。

然后我们缩小每个帧的大小并叠加四个子帧。

时间限制

阿瑟·朱利安尼在他的文章中对这个话题作了很好的解释。他有一个聪明的主意:用LSTM神经网络来处理它。

不过,我认为初学者最好使用堆叠图像。

您可能会问的第一个问题是,为什么要将图像帧叠加在一起?

我们将帧堆叠在一起,因为这有助于我们处理时间限制。

让我们以乒乓球比赛为例。当你看到这张照片时:

你能告诉我球在哪里吗?

不,因为一帧图片不足以产生运动感!

但是如果我再加三帧呢?在这里你可以看到球向右移动。

这对我们的末日特工也是一样的。如果我们一次只给他一张照片,他就不知道怎么做了。如果一个物体不能确定其运动的位置和速度,它怎么能做出正确的决定?

使用卷积网络

帧由三个卷积层处理。这些层允许您利用图像中的空间关系。但是,由于框架堆叠在一起,因此可以利用这些框架的一些空间属性。

如果你不熟悉卷积,请仔细阅读亚当·盖奇的文章。

每个卷积层将使用ELU作为激活函数。实验证明,ELU是一种较好的卷积层活化函数。

我们建立了一个具有ELU激活函数的完整连接层和一个输出层(具有线性激活函数的完整连接层),其输出为每个动作的Q值估计。

经验回放:更有效地利用观察到的经验

体验回放将帮助我们处理两件事:

避免忘记过去的经历。

减少经验之间的关联。

我将解释这两个概念。

本节和插图的灵感来源于Udacity深造基础Nanodegree深造章节中的重要解释。

避免忘记过去的经历

我们有一个大问题:权重的可变性,因为行为和状态之间有高度的相关性。

记住,在第一篇文章(强化学习简介)中,我们讨论了强化学习的过程:

在每个时间步骤中,您都会得到一个元组(状态、动作、奖励、新状态)。从(这个元组)中学习并扔掉经验。

问题是将从主体与环境的相互作用中获得的序列样本输入到神经网络的训练过程中。神经网络往往会忘记以前的经验,因为它们的参数被新的经验所覆盖。

例如,当前的超级玛丽第一次通过,然后第二次通过(环境完全不同),我们的代理将忘记如何在第一次通过。

通过学习如何在水里玩耍,我们的经纪人忘记了如何在第一关上玩耍。

因此,通过反复学习,我们可以更有效地利用以往的经验。

yin ci,tong guo fan fu xue xi,wo men ke yi geng you xiao di li yong yi wang de jing yan..

我们的解决方案:创建一个"重放缓冲区"库存。当代理与环境交互时,经验元组被存储。然后用小批量的元组数据训练神经网络。

"回复缓冲区"可以看作是一个文件夹,其中每个工作表都是一个经验元组。它是由代理和环境之间的交互作用生成的。然后使用这些随机表中的一些来训练神经网络。

这将阻止网络仅学习代理的当前经验。

减少经验之间的关联

我们还有另一个问题——我们知道每一个动作都会影响下一个状态。动作过程产生一系列经验元组,这些元组可能高度相关。

如果网络是按顺序训练的,这种相关性将影响我们的代理。

通过回放缓冲区随机抽取,我们可以打破这种相关性。它可以防止动作值的振荡或发散。

通过一个例子更容易理解。假设我们玩第一人称射击,怪物不断出现在左边或右边。特工的目标是射杀怪物。它有两把枪和两个动作:向左或向右射击。

此表表示Q值的近似值。

我们学习有序的经验。假设我们知道,如果我们射杀一个怪物,下一个怪物来自同一方向的概率是70%。在我们的例子中,这是经验元组之间的关联。

开始训练。探员看到了右边的怪物,用右手的枪射杀了它。这是正确的!

然后下一个怪物从右边来(70%),特工会用右边的枪射击。再打一次,很好!

等待。。。。。。

红色枪是采取的行动

问题是,这种方法增加了在整个状态空间使用右枪的重量。

我们可以看到左面右枪射击怪物的Q值是正的(即使这是不合理的)。

如果网络在左边看不到很多例子(因为只有30%的例子可能来自左边),代理将只选择右边,不管怪物来自哪里。这是完全不合理的。

即使怪物出现在左边,我们的特工也会用右手枪射击。

我们有两种并行的策略来处理这个问题。

首先,当与环境交互时,学习必须停止。我们应该尝试探索不同的事物,四处游玩,探索状态空间。我们可以将这些体验保存在回放缓冲区中。

然后,你可以回放这些经历并从中学习。之后,继续播放更新值函数。

因此,我们会有一套更好的样品。通过这些例子,我们可以总结出游戏的真实模式,并以任何顺序进行回放。

这有助于避免固定到状态空间的某个区域。这可以防止重复强化相同的动作。

这种方法可以看作是一种监督学习的形式。

我们将在以后的文章中看到,我们还可以使用优先级体验回放。这使我们能够更频繁地向神经网络呈现罕见或"重要"的元组。

我们的深度Q学习算法

首先,一点数学知识:

记住,我们使用Bellman方程更新给定状态和动作的Q值:

在我们的示例中,我们更新了神经网络的权重以减少错误。

定时差误差(或td误差)由q_目标(下一个状态的最大可能值)和q_值(我们当前预测的q值)之间的差值计算得出。

初始化doom环境einitialize replay memory m with capacity n(=有限容量)初始化dqn weights w for epision in max_epision:s=环境状态for steps in max_steps:使用epsilon greedy从状态中选择操作a。采取行动,获得r(奖励)和s(下一状态)存储元组

当前文章://www.nongmu.info/9gigo7k/11224-34748-63207.html

发布时间:10:08:58

许昕完败林高远李若彤古天乐同框各大卫视春晚阵容人均收入28228元鲍尔脚踝受伤袁姗姗爸爸秘笈羽超联赛停办一年GDP首破90万亿联合国维和遇袭女童周洋父亲报案

{相关文章}

十个月见四次。习近平和金正恩每次都要谈些什么?

外交习语|10个月内见4次,习近平同金正恩每次必谈什么?

新年伊始,中共中央总书记、国家主席习近平接待了2019年的第一位外宾——朝鲜劳动党委员长、国务委员会委员长金正恩。

1月7日至10日,金正恩对中国进行访问。这是继去年3月、5月、6月三次访华后,他第四次踏上中国的土地。10个月内,习近平同金正恩四度会晤,每次都进行了长时间的深入交流。有哪几件事,是他们必谈的?

通过下面几个关键词,我们一起来看看。

关键词①:传统友谊

新年新会晤,时间不一般。

"委员长同志在2019年新年伊始、两国迎来建交70周年之际访华,充分体现了委员长同志对中朝传统友谊的高度重视、对中国党和人民的友好情谊。"这次会谈一开场,习近平表达了对金正恩访华的赞赏。

2019年1月8日,习近平同当日抵京的金正恩举行会谈。会谈前,习近平在人民大会堂北大厅为金正恩举行欢迎仪式。 新华社记者 李学仁摄

中国和朝鲜山水相连,又同为社会主义国家。两国老一辈领导人怀着共同的理想信念和深厚的革命友谊,彼此信赖、相互支持,书写了国际关系史上的一段佳话。

这也就不难理解,习近平在去年同金正恩首度会晤时,为什么曾用"像走亲戚一样常来常往"来形容中朝几代领导人保持的密切交往。

在中朝关系发展史上,高层交往历来发挥着最重要的引领和推动作用。10个月内四度会晤,两位领导人如此密切互动,正是对良好传统的继承和生动实践,也展示了中朝友谊的强大生命力。

&nbs冬季养生知识讲座_蜘蛛资讯网p;2018年3月28日,习近平在人民大会堂同金正恩举行会谈。 新华社记者 姚大伟摄

当前,在中朝关系掀开了新的历史篇章、两国迎来建交70周年这一具有"承前启后、继往开来的重要意义"的时间节点,习近平同金正恩再度会晤,对引领中朝关系未来发展的意义不言而喻。

这次会晤中,习近平再次强调双方要保持高层交往、加强战略沟通、深化友好交流合作,为推动中朝关系长期健康稳定发展指明路径。

关键词②:半岛局势

"去年朝鲜半岛形势出现缓和,中方为此发挥的重要作用有目共睹,朝方高度赞赏并诚挚感谢。"这次会晤中,金正恩表达了对中方的赞赏和感谢。

2018年,在中朝及有关方共同努力下,半岛问题政治解决进程取得重大进展。

细细梳理四次会晤的时间线,其中考量耐人寻味,足见中方在半岛问题上发挥的积极建设性作用。

第一次,习近平用了"时机特殊、意义重大"这个表述,呼吁各方支持半岛北南双方改善关系,共同为劝和促谈作出切实努力。

第二次是在"朝鲜半岛局势深刻复杂演变的关键时刻",习近平对朝方此前宣布停止核试验和洲际弹道导弹试射、废弃北部核试验场表示赞赏。

第三次则是金正恩在与美领导人首次会晤后"专程来华""养生文化进万家_蜘蛛资讯网,,养生别墅_蜘蛛资讯网习近平指出,希望朝美双方落实好首脑会晤成果,有关各方形成合力,共同推进半岛和平进程。

2018年6月19日,习近平同当日抵京的金正恩举行会谈。会谈前,习近平在人民大会堂北大厅为金正恩举行欢迎仪式。新华社记者 申宏摄

这一次,习近平强调,半岛和平对话的大势已经形成,谈下去并谈出成果成为国际社会普遍期待和共识。

梵艾灵芝养生壶_蜘蛛资讯网;;

政治解决半岛问题面临难得的历史机遇,习近平用"四个支持"再次明确中方立场:

——支持朝方继续坚持半岛无核化方向;

——支持北南持续改善关系;

——支持朝美举行首脑会晤并取得成果;

——支持有关方通过对话解决各自合理关切。

金正恩表示,朝方将为朝美领导人第二次会晤取得国际社会欢迎的成果而努力。

习近平表示,希望朝美相向而行,中方愿同朝方及有关方一道努力,为维护半岛和平稳定,实现半岛无核化和地区长治久安发挥积中医药养生知识_蜘蛛资讯网极建设性作用。

关键词③:经济发展

四次会晤中,习近平都对朝方在发展经济、改善民生方面采取的一系列积极举措、取得的许多成果表示赞赏。尤其是2018年4月朝鲜劳动党七届三中全会作出集中力量发展经济、提高人民生活水平的决定以来,习近平已多次表达中方的支持。

2018年5月8日,习近平同金正恩在大连举行会晤。新华社记者 谢环驰摄

"相信朝鲜人民一定会在社会主义建设事业中不断取得新的更大成就。"在这次会晤中,习近平表达了期许。

金正恩则表示:"朝方认为中国的发展经验十分宝贵,希望多来中国实地考察交流。""

此前访华时,金正恩曾先后参观了"率先行动砥砺奋进——十八大以来中国科学院创新成果展"、中国农业科学院国家农业科技创新园和北京市轨道交通指挥中心。

这一次,他又参观了北京同仁堂股份有限公司同仁堂制药厂亦庄分厂,实地考察了有关传统工艺及现代化中药加工生产线。

2019年1月9日,金正恩参观北京同仁堂股份有限公司同仁堂制药厂亦庄分厂,实地考察有关传统工艺及现代化中药加工生产线。新华社记者 谢环驰摄

"我在过去不到一年时间里四次访华,对中国经济社会发展成就和中国人民奋发图强的精神面貌印象深刻。"金正恩说。

今年是新中国成立70周年。在70年的历程中,中国共产党领导中国人民迎来了从站起来、富起来到强起来的历史飞跃。

如今,中国特色社会主义进入了新时代,朝鲜劳动党实施新战略路线取得不少积极成果。

&n女人养生 美容美体_蜘蛛资讯网bsp;有理由期待,两国友好往来、团结合作,必将共同开创更加美好的未来。

新华社记者:王卓伦、郑明达

相关文章
推荐图文
最热文章