人工智能之强化学习(RL)

2018-05-05 08:12

AI优化生活

关注

强化学习设计考虑：

1）如何表示状态空间和动作空间。

2）如何选择建立信号以及如何通过学习来修正不同状态－动作对的值。

3）如何根据这些值来选择适合的动作。

强化学习常见算法：

强化学习的常见算法包括：1）时间差分学习（Temporal difference learning）；2）Q学习（Q learning）；3）学习自动（LearningAutomata）；4）状态－行动－回馈－状态－行动（State－Action－Reward－State－Action）等。

强化学习目标：

强化学习通过学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价（或整个系统的运行性能）为最佳。简单的说，强化学习的目标是动态地调整参数，达到强化信号最大。

强化学习应用前景：

前段时间被刷屏的机器人，大家一定不陌生吧，来自波士顿动力的机器人凭借出色的平衡性给大家留下了深刻的印象。机器人控制领域就使用了大量的强化学习技术。除此之外，游戏、3D图像处理、棋类（2016年备受瞩目的AlphaGo围棋）、等领域都有应用。

机器人

游戏

3D 图像处理

人机大战

结语：

强化学习是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习与其他机器学习算法不同的地方在于没有监督者，只有一个Reward信号，而且反馈是延迟的。强化学习是人工智能之机器学习中一种快速、高效且不可替代的学习算法，实际上强化学习是一套很通用的解决人工智能问题的框架，值得人们去研究。另外，深度学习［参见人工智能（22）］和强化学习相结合，不仅给强化学习带来端到端优化便利，而且使得强化学习不再受限于低维空间，极大地拓展了强化学习的使用范围。谷歌DeepMind中深度强化学习领头人David Silver曾经说过，深度学习（DL）＋强化学习（RL）＝人工智能（AI）。

<上一页 1 2