图形学+深度学习：来看下神经渲染完成的神仙操作！

2020-04-14 10:16

自由视点视频合成

自由视点视频（Free Viewpoint Videos，也称为 Volumetric Performance Capture）依赖于多相机条件下对于3D形状和纹理的捕捉。但先前的方法得到的结果不够真实，因为高频细节的缺失或纹理的失真使任意场景中精确的重光照困难重重。此外，不精确的几何估计使得纹理图像变得模糊；最后，由于真实场景中构建时间连续的三维模型十分困难，对于头发和透明物质的重建还有很多问题需要解决。

不过好在研究人员通过结合传统的重光照方法和高速高精度的深度传感器，最终克服了上述困难。下图展示了最新的Relightable系统：其捕捉了人体自由视点，重建出几何模型和反射率图，并最终实现了能在任意场景中进行合成的视觉效果。

此外，神经渲染技术还可用于演员表演的LookinGood系统。通过实时地重渲染，该技术大幅提升了图像采集系统的性能：

为了从多视角视频数据中实现自动化的创造、渲染，模拟高质量的模拟目标模型，研究人员还提出了Neural Volumes系统：先把多视角的视频序列输入编码器，将其解码为半透明的RGB体和对应的透明权重；然后再基于相机穿过这一体积的视线来对模型进行渲染，累积出颜色和透明度，完成最终的输出工作。

学习重新打光的神经渲染

在新的光照下重新渲染逼真的图像被称为relighting，其对于视觉应用和虚拟现实、增强现实具有重要作用。目前工业界使用的方法是基于图像的重光照，这需要采集不同光照条件下场景的图像，并基于这些来合成出新光照下的结果。这种方法被广泛用于好莱坞视觉特效中，但需要耗费大量的财力、物力、人力、以及定制化的设备，不便于野外使用。

这时，神经渲染技术就派上了大用途。在该技术的驱动下，研究者利用渲染或真实采集的反射场数据对网络进行训练，让工作人员在应用少数图像的情况下，还能给场景重新打光。

此种方法的实现原理很好理解：通过神经渲染技术，研究者能让系统从少数几张图像中学习出场景的光照方向和重光照函数。在此基础上，人们也可利用多视角来学习场景几何构成以实现更好的重光照。

事实上，该技术不仅可以应用于光照不足的场景，即使在光照条件尚可的环境下，其对于反射场的学习也可达到提升环境表现力的渲染效果。比如像下图这样：

人体重建渲染

这一部分的研究包括人脸和肢体的重现。针对人脸来说其主要包括生成新的表情、位姿或者语言嘴形等等。而针对人体来说主要包括行为克隆，交互控制等等，来操作目标视频中人物的姿态、行为和动作等等。

其中一个有趣的应用是修改视频中人说话内容的同时，将人物的口型也进行相应的修改。下图显示了Text－based Editing of Talking－head Video，视频中说话人的文字被改变，对应的嘴形也被改变并渲染出了逼真的结果。

类似的应用还包括通过Deferred neural rendering，实现3D情况下的新视角合成与场景编辑：

而在人体重渲染方面，该技术可以控制目标对象的位置、渲染和身体位姿：既可以从源视频中抽取动作信息控制目标姿态，也可利用人体关节模型来控制目标视频中主体的行为。

虽然神经渲染技术在各个方面已经取得了巨大的突破，成为了图形学领域和计算机视觉、机器学习领域交融共生的新兴方向，但其目前还面临着泛化性、规模化、可编辑性以及多模态数据场景表达能力的限制，还有很大的发展空间。相信随着技术的进步，会有更多通用、易用、高效稳定的方法被提出，让神经渲染达到与现代图形学一样的适用范围的同时，还能激发其深度学习的强大能力。

<上一页 1 2