无监督的三维人脸重建论文解读

来源：投稿作者：小灰灰

编辑：学姐

随着计算机视觉和三维测量领域方面的深入研究，如何重建真实人脸的三维模型成了研究的热点之一。

人脸作为人体结构中外在表现能力最强的一部分，承载了很多的人类面部信息，世界上不存在完全一致的人脸，例如双胞胎，兄弟姐妹之间都有或多或少的差异，这些差异表现在人的脸型，眉毛，酒窝，表情和肤色等一些面部特征。

通过每张人脸的不同特征，可以获取到很多有意义的信息，用来进行人脸检测，年龄识别等计算机视觉领域。

当今世界，二维照片极易获取，但随着经济的发展和科技的进步，二维照片的研究已经不能满足人脸的需求了，但是相比较二维照片，三维空间中的人脸模型包含了更复杂和更丰富的生物信息，相比较二维图片，三维照片多了一个维度，可以更能体现人脸的形状和细节信息。

基于单张图像的三维人脸重建可以分为四类：

基于传统的人脸三维重建方法，
基于形变模型的三维重建方法，
基于端到端的三维人脸重建方法，
基于深度学习的三维人脸重建方法，
基于无监督的三维人脸重建。

接下来我们来学习一下这篇论文中的无监督三维人脸重建。

论文标题：

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

论文链接:

https://arxiv.org/abs/1911.11130

论文代码：

https://github.com/elliottwu/unsup3d

数据集：

CelebA[1]，3DFAW,和BFM[2]。

CelebA是一个大规模的人脸数据集，由超过20万张野外真实人脸图像组成，并用边界框进行了注释。

3DFAW包含23k个图像，其中有66个3D关键点注释，我们使用这些注释来评估我们的3D预测。我们粗略地裁剪头部区域的图像，并使用官方的train/val/test分割。

BFM（Basel Face Model）是一种合成人脸模型，我们用它来评估三维重建的质量（因为野外数据集缺乏真实感）。按照[34]的协议生成一个数据集，随机对形状、姿势、纹理和照明进行采样。我们使用SUN数据库中的图像作为背景，并保存地面真实深度图以供评估。

01 网络结构

一般的基于无模型的三维人脸重建，是通过分析单张图像中的明暗信息来判断物体表面的法线方向，从而恢复表面形状的方法。

首先输入一张在真实世界中拍摄的环境不受限的128*128大小的RGB人脸图像，在朗伯假设下，将图像分解为形状，反射和光照三方面的信息。

形状信息就是法向图，反射信息由于已经采用朗伯假设，反射信息表示为反照率（Albedo），简单的理解就像3D游戏建模里的纹理贴图。

光照信息表示成一个三通道，每个通道9参数的矩阵，总共27个光照参数。通过卷积神经网络提取出图像的feature map，引入了两个残差块Normal Residual Blocks和Albedo Residual Blocks，这两个残差块的作用就是从图像的feature map中学习分解出法向和反照率两方面的信息。

经过残差块后，通过法向、反照率以及图像特征来回归光照参数。这个SH light就是最终的球谐光照。

然后法向特征与反照率特征分别经过卷积后生成最终的Normal和Albedo。

这里Normal和光照经过渲染后生成Shading图像，这个图像就是生成的三维形状的白模在光照下的情况，Shading本来是灰色图像的，但因为分解出的光照偏蓝色，所以这个Shading图像也就有了颜色。最终通过形状，光照，反照率生成重建的图像。

从原始单目图像学习三维形变物体的方法，并且没有额外的监督信号。这个方法是基于自编码器的架构，将输入的图像转换为深度、反射率、视角和照明信息。

为了分解这些没有监督的组件，作者使用了这样一个事实，即在大体上很多物体都是一个对称结构。对照明的推理允许我们去发掘潜在的对称，尽管由于阴影等原因外表不是对称的。

从深度(depth)、反射率(albedo)、视角(viewpoint)、光照(lighting)和每个像素点的对称概率(confidence)5个角度进行建模。

a表示反射率albedo, d表示深度图depth，l表示光照方向light，w表示视角方向viewpoint

人脸重建一共分为两步：

①光照函数Λ：使用深度图d、光照方向l和反射率a，生成一张标准视角 w = 0下的人脸图像，其中d和a为正面的.

②重映射函数Π：将①中生成的标准视角下的人脸图像，再结合视角w以及深度图，最终得到重建的人脸图像

02 重建损失

其中l为重建误差，采用拉普拉斯分布，σ为每个像素点是对称点的概率，由拉普拉斯分布的曲线可知，分子相同时（不是很大，基本靠近0）分母越大，则概率分布越小，对应到模型中，σ 的值小，则说明该点不为对称点，则该点的误差更加重要，同时，为了隐式地约束图像的对称性，将深度图d和反射率a进行左右翻折后，同样约束重建图像和原始图像相同。

总的损失为：

03 实验结果

定量指标：

主要采用尺度不变深度误差（SIDE）和平均角度偏差（MAD）两个评价指标来评价算法的重建效果。

比例不变深度误差（SIDE）定义为重建的人脸深度与实际人脸深度之间的误差，定义如下：

平均角度偏差（MAD）定义为重建人脸法线与实际人脸法线之间的平均误差。

本文的方法在有监督和相关的无监督方法上性能表现良好。

定性指标：

如图可见，我们的方法与其他方法相比，我们方法质量，清晰度都比较好。

下面是重建后的图片的展示。

参考文献：

Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proc. ICCV, 2015

PascalPaysan,ReinhardKnothe,BrianAmberg,SamiRomd- hani, and Thomas Vetter. A 3D face model for pose and illumination invariant face recognition. In Advanced video and signal based surveillance, 2009

— 经典论文合集 —

资源下载：

下载地址： http://yemao.in/life?utm_source=sishubiji&utm_term=无监督的三维人脸重建论文解读