订阅
纠错
加入自媒体

RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划

2020-07-10 14:58
将门创投
关注

二、问题规范化

该论文考虑的是如下图所示的POMDP 问题:系统处于连续的状态-动作-观测空间中,而系统的状态转移除了受到上一时刻的状态和动作影响,还由一个离散的隐变量z 决定,而每一时刻的观测量则由当前时刻的系统状态以及隐变量共同决定。其中隐变量z 可用于表示系统中不确定性的不同模态,如旁侧车辆驾驶者的性格、不同行进路线的路况、路面的物理状况等。

对隐变量z 的不同可能性的置信度b(z),我们可以通过如下定义进行更新。

问题的最终目标是对行为策略π 进行优化,从而使得累计损失函数值 J 达到最低。

其中l 和lf分别为根据置信度b 加权平均得到的过程损失函数和最终损失函数。由该公式取最优行为策略π* 后得出的值函数V 可以表示成贝尔曼方程形式,进行递归处理。

三、方 法

论文提出了一种新的微分动态规划(DDP)算法,Partially Observable Differential Dynamic Programming (PODDP),可用于解决连续空间下的POMDP 问题。与一般的iLQG/DDP 算法相似,PODDP 也把流程分为了前向过程(Forward Pass)和后向过程(Backward Pass),并对动作序列进行迭代优化。

1. 前向过程在前向过程进行前,动作序列U = { u0, u1, …, uT-1 } 需要预先给定。在初始化的前向过程中,一般使用随机生成的动作序列,或者通过某些前导知识有规律地生成动作序列。在此后的过程中,将使用前一次优化得到的动作序列,进行迭代优化。

在确定性系统中,由于状态转移过程是确定的,故给定的动作序列将衍生出一条链式的状态序列。但在我们考虑的系统中,由于多模态不确定性的存在,类比于离散空间下的POMDP 问题,每一个节点都可以根据隐变量z 的不同取值可能性,延伸出多个分支,最终形成一个树状的轨迹推演,即轨迹树(trajectory tree),如上图所示。

为了更直观地理解,我们可以考虑一个公路上的变道场景。如下图,我们的汽车(红色)希望变道到左侧车道,可是左侧车道上已经有一辆车了。我们在进行轨迹优化的时候,将未来可能获得的关于旁侧车辆驾驶者性格的观测纳入考虑当中,对方可能是合作性格的,也可能是激进性格的,这两种性格分别对应两个不同的模态。在向前推演的时候,根据这两种不同模态的最大似然值进行分支,获得轨迹推演树。每一条从根节点到叶节点的完整支路对应一条可能发生的轨迹。

2. 后向过程为了对轨迹树进行优化,我们首先定义值函数扰动方程Qt以描述在某一时刻t 下系统状态和动作的扰动对值函数的影响。

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号