用强化学习在Unity模拟器中训练Donkey Car（下）

4.3 用DDQN训练Donkey Car

准备好了对强化学习友好的环境，我们现在就可以搭建自己的强化学习算法啦！我采取的是用Keras书写的Double Deep Q学习算法，这是DeepMind开发的经典强化学习算法，易于测试，编写简单。我已经在OpenAI gym中的cartpole和VizDoom中测试了，所以如果有什么问题，应该是Unity环境的问题，算法没有问题。关于DQN的文章，大家可以参考我之前的博文。flyyufelix.github.io/2017/10/12/dqn-vs-pg.html

4.3.1 状态空间

我们用Donkey Car前方安装的摄像机所拍摄的像素照片，执行以下转换：

将尺寸从（120, 160）改为（80, 80）
变为灰度图像
框架堆叠：去前面几个步骤中的4个框架堆在一起

最后的状态维度应该是（1, 80, 80, 4）。

4.3.2 动作空间

现实和虚拟世界中的Donkey Car都是将持续的方向控制和油门数值作为输入。为了简介，我们将油门数值设为常量（例如0.7），仅仅改变控制方向。控制方向的值从-1到1，但是，DQN只能处理分离的动作，所以我将方向的值分为15个种类。

4.3.3 Q网络框架

我们的Q网络是一个3层卷积神经网络，以堆叠的框架状态为输入，输出表示方向值分类的15个值。

4.3.4 奖励

奖励是有关汽车偏离中线程度的函数，它由Unity环境所提供。奖励函数用以下公式表达：

其中maxcte是一个归一化常数，所以奖励的范围在0到1之间。如果abs(cte)大于maxcte，循环即终止。

4.3.5 其他重要变量

Frame skipping设置为2以稳定训练。Memory replay buffer的值为10000.Target Q网络在最终训练时会更新。CNN训练时的Batch size为64。贪婪函数用于探索。Epsilon初始值为1，逐渐在10000次训练后会成为0.02。

4.3.6 结果

经过上面的设置，在单个CPU和一个GTX 1080 GPU上，我训练了DDQN差不多100次。整个训练用了2到3个小时。可以从上面的视频中看到，小车跑得很好！

去除背景噪声

我们想让我们的强化学习智能体只根据路线的位置和方向进行决策输出（即方向控制），不要受环境中的其他因素影响。但是，由于我们的输入是全像素的图像，它可能对背景模式过度拟合，而无法认出行进路线。这在现实中尤其重要，因为旁边的车道可能会有障碍物（例如桌子、椅子、行人等）。如果我们想从虚拟世界将学习策略进行迁移，我们应该让智能体顾略背景中的噪音，只关注于车道。

为了解决这个问题，我创建了一个预处理通道，可以将行车路线从原始像素图像中分离出去，再输入到CNN中。分割过程受这篇博文的启发（https://medium.com/@ldesegur/a-lane-detection-approach-for-self-driving-vehicles-c5ae1679f7ee）。这一过程概括如下：

用Canny Edge检测器检测并提取所有边框
用Hough直线转换确定所有直线
将直线分成positive sloped和negative sloped两类
删除所有不属于车道的直线

最终转换出的图片应该有最多2条直线，具体情况如下：

接着我把分割后的图像重新调整到(80, 80)的，将4个连续的框架堆叠在一起，用它们作为新的输入状态。我使用新状态再次训练了DDQN，生成的强化学习智能体可以学习良好策略进行驾驶！

然而，我注意到不仅仅训练时间会变长，学习策略也会变得不稳定，车子会经常在转弯的时候摇晃。我想可能是因为在训练的时候丢掉了有用的背景信息。不然的话，智能体应该不会过度拟合。

下一步

在这篇文章中，我们介绍了一种能和OpenAI gym相比的环境，用来训练Unity模拟器中的Donkey Car。还用DDQN训练它自动成功地自动驾驶。接下来，我计划让小车通过训练加速到最大值，并且将这一策略迁移到现实中。

代码地址：github.com/flyyufelix/donkey_rl

就爱折腾 | 92maker.com

标签