订阅
纠错
加入自媒体

人工智能之强化学习(RL)

2018-05-05 08:12
AI优化生活
关注

强化学习设计考虑:

1)如何表示状态空间和动作空间。

2)如何选择建立信号以及如何通过学习来修正不同状态-动作对的值。

3)如何根据这些值来选择适合的动作。

强化学习常见算法:

强化学习的常见算法包括:1)时间差分学习(Temporal difference learning);2)Q学习(Q learning);3)学习自动(LearningAutomata);4)状态-行动-回馈-状态-行动(State-Action-Reward-State-Action)等。

blob.png

强化学习目标:

强化学习通过学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。简单的说,强化学习的目标动态地调整参数,达到强化信号最大

强化学习应用前景:

前段时间被刷屏的机器人,大家一定不陌生吧,来自波士顿动力的机器人凭借出色的平衡性给大家留下了深刻的印象。机器人控制领域就使用了大量的强化学习技术。除此之外,游戏、3D图像处理、棋类(2016年备受瞩目的AlphaGo围棋)、等领域都有应用。

blob.png

机   器  人

blob.png

游  戏

blob.png

3D 图 像 处 理

blob.png

人 机 大 战

结语:

强化学习是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习与其他机器学习算法不同的地方在于没有监督者,只有一个Reward信号,而且反馈是延迟的。强化学习是人工智能之机器学习中一种快速、高效且不可替代的学习算法,实际上强化学习是一套很通用的解决人工智能问题的框架,值得人们去研究。另外,深度学习[参见人工智能(22)]和强化学习相结合,不仅给强化学习带来端到端优化便利,而且使得强化学习不再受限于低维空间,极大地拓展了强化学习的使用范围。谷歌DeepMind中深度强化学习领头人David Silver曾经说过,深度学习(DL)+ 强化学习(RL) = 人工智能(AI)

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号