像奇异博士一样预测未来已成为现实？MIT、百度AI或为你圆梦！

2019-07-05 11:05

算力智库

关注

作者：Ripple

编辑：生煎

您正在阅读算力智库第 388 篇原创作品

算力说

无论是在电影还是小说中，预测未来的能力总是让人惊叹。运用AI算法，透过声音或像素流向对未来进行预测，或将为你打开这扇新世界的大门。

MIT、UC Berkeley强强联手，用AI听出你的姿势

在今年的CPVR2019论文中，有一篇跨模转换的文章吸引了算力智库的注意。这究竟有什么特别之处呢？原来，只需要音频语音输入，AI可以预测并生成出相对应的手势，而所谓的跨模转换即为声音到手势及手臂动作的转换，让我们先来看段视频了解一下。

视频的左上是标定好的真实数据，而右边的视频则是基于左下的预测部分进行合成的。通过观察，我们可以发现预测数据对比真实数据的准确度是高度一致的，这种神奇的操作又是基于何种原理呢？

语音预测动作的技术原理大致分为以下四个要素：

1．首先，需要训练与音频相对应的姿势检测序列（能将指定序列从数码流中识别出的方法）。研究人员使用L1回归到2D关键点的序列堆来学习从语音到手势的映射。

2．其次，使用对抗性鉴别器（防止数据训练时源标签信息丢失以及结果多样性不足的鉴别器）来避免回归到所有可能姿势的平均值，以确保预测动作的可信度。

3．进而，运用卷积音频编码器（用以音频纠错的编码器）对2D图像进行采样并转换为1D信号。

4．最后使用Unet转换架构（用已转换的1D信号重建2D图像的转换架构）。而bottleneck作为构建Unet转换架构的三大组成之一，为完全卷积网络（由卷积音频编码器及Unet转换架构组成）提供了过去和未来时间的上下文。而这一步即为预测速度的关键。

语音预测手势的模型（图片来源：CPVR2019）

在了解了相关技术之后，让我们来感受一下这个神奇的视频。

动画角色创建或成为最先应用

说话者的手势是独特的，对一个人进行训练并预测另一个人的手势并不起效。这些个人特定手势往往带有自己的风格，无论是睁大眼睛又或是手舞足蹈。比如下面这两位。

而无论你的动作细微还是夸张，都逃不过AI的“法耳”。

研究团队表示，他们的下一步是不仅根据声音，还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人，或者识别假视频中人的动作。

东京工大建立FuturePose系统，提前看穿你的下一步

东京工业大学的研究团队于今年在IEEE上发布了一套名为FuturePose格斗训练系统。这套系统可以帮助实验者预测对手未来0．5秒后的动作。让我们先看两个有趣的动图来了解一下。

研究人员通过RGB像素流向，运用机器学习来定位关节，进而根据关节摆动方向来预测对手未来的动作。

实验时，系统预测的3D影像和现实影像同时显示在实验者所佩戴的VR设备中。结果显示，使用FuturePose的成员做出回避动作的平均反应时间在0．42秒，而未使用的成员需0．62秒的反应时间。

FuturePose 的技术原理大致分为以下三个要素：

1．首先，基于残差网络（增加深度且能提高性能的网络）来分析RGB相机中所捕获的图像，以推测对象2D关节的位置。

2．其次，将该位置输入至长短期记忆网络（处理和预测时序数据的模型）用以学习时序特征，从而预测未来的2D位置。

3．为了得到更精准的结果以及降低计算成本，研究团队采用了晶格光流法（将向量网格化用以描述物体移动的方法）。最后将2D位置可视化，构建成3D骨架模型。

FuturePose的技术原理（图片来源：IEEE）

竞技体育或成为最先应用

虽然只有短短的0．5秒，但是对于专业的拳击选手来说，已经算的上取胜的关键了。出拳，闪躲，回击，一切都能在0．5秒内完成。东京工业大学制作 FuturePose 的初衷是为了格斗训练，但他们也希望通过不断完善这项技术，让 FuturePose 可以应用于其他竞技体育或娱乐项目中。

如守门员扑球时的提前预判。

如对舞蹈动作的预判。

百度AI在预测未来中的实际应用

纵观国内行业在“预测未来”上的发展主要集中在自动驾驶方面。例如，通过行人道路预测在自动驾驶中规避潜在风险。运用跟踪数据学习行人动力学则成了国内一些如百度、奇点汽车自动驾驶领域公司的主要手段。除此之外，对驾驶车道错误、闯红灯、车相撞和撞静态物体等方面的预测也同样能够帮助车辆提前感知风险、判断决策、进而规避危险事件。

百度AI的两大杀手级武器

Road Hackers自动驾驶平台

Road Hackers是世界上首个在真实道路上可以实现端到端模式的高级自动驾驶模型，并已具备提供海量中国路情驾驶数据开放，基于深度学习的自动驾驶算法演示，可有效提高对路况、行人、危险环境预测的准确度。

BCU－百度自动驾驶专用计算平台

BCU （Baidu Computing Unit）是国内目前第一个可量产的自动驾驶计算平台，目前具有信息安全和云端更新两大基础能力，以及高精定位、环境感知、规划决策的AI核心模块。其中MLOP（高精定位＋环境感知）、MLOP2（高精定位＋环境感知＋规划决策）

日前，北京市自动驾驶测试管理联席小组发布首批T4级别自动驾驶测试牌照，百度成为中国第一家、也是唯一获得此级别牌照的企业。