无监督的三维人脸重建论文解读

来源:投稿 作者:小灰灰

编辑:学姐

随着计算机视觉和三维测量领域方面的深入研究,如何重建真实人脸的三维模型成了研究的热点之一。

人脸作为人体结构中外在表现能力最强的一部分,承载了很多的人类面部信息,世界上不存在完全一致的人脸,例如双胞胎,兄弟姐妹之间都有或多或少的差异,这些差异表现在人的脸型,眉毛,酒窝,表情和肤色等一些面部特征。

通过每张人脸的不同特征,可以获取到很多有意义的信息,用来进行人脸检测,年龄识别等计算机视觉领域。

当今世界,二维照片极易获取,但随着经济的发展和科技的进步,二维照片的研究已经不能满足人脸的需求了,但是相比较二维照片,三维空间中的人脸模型包含了更复杂和更丰富的生物信息,相比较二维图片,三维照片多了一个维度,可以更能体现人脸的形状和细节信息。

基于单张图像的三维人脸重建可以分为四类:

  • 基于传统的人脸三维重建方法,

  • 基于形变模型的三维重建方法,

  • 基于端到端的三维人脸重建方法,

  • 基于深度学习的三维人脸重建方法,

  • 基于无监督的三维人脸重建。

接下来我们来学习一下这篇论文中的无监督三维人脸重建。

   

论文标题:

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild  

论文链接:

https://arxiv.org/abs/1911.11130

论文代码:

https://github.com/elliottwu/unsup3d

数据集:

CelebA[1],3DFAW,和BFM[2]。

CelebA是一个大规模的人脸数据集,由超过20万张野外真实人脸图像组成,并用边界框进行了注释。

3DFAW包含23k个图像,其中有66个3D关键点注释,我们使用这些注释来评估我们的3D预测。我们粗略地裁剪头部区域的图像,并使用官方的train/val/test分割。

BFM(Basel Face Model)是一种合成人脸模型,我们用它来评估三维重建的质量(因为野外数据集缺乏真实感)。按照[34]的协议生成一个数据集,随机对形状、姿势、纹理和照明进行采样。我们使用SUN数据库中的图像作为背景,并保存地面真实深度图以供评估。

01 网络结构

一般的基于无模型的三维人脸重建,是通过分析单张图像中的明暗信息来判断物体表面的法线方向,从而恢复表面形状的方法。

首先输入一张在真实世界中拍摄的环境不受限的128*128大小的RGB人脸图像,在朗伯假设下,将图像分解为形状,反射和光照三方面的信息。

形状信息就是法向图,反射信息由于已经采用朗伯假设,反射信息表示为反照率(Albedo),简单的理解就像3D游戏建模里的纹理贴图。

光照信息表示成一个三通道,每个通道9参数的矩阵,总共27个光照参数。通过卷积神经网络提取出图像的feature map,引入了两个残差块Normal Residual Blocks和Albedo Residual Blocks,这两个残差块的作用就是从图像的feature map中学习分解出法向和反照率两方面的信息。

经过残差块后,通过法向、反照率以及图像特征来回归光照参数。这个SH light就是最终的球谐光照。

然后法向特征与反照率特征分别经过卷积后生成最终的Normal和Albedo。

这里Normal和光照经过渲染后生成Shading图像,这个图像就是生成的三维形状的白模在光照下的情况,Shading本来是灰色图像的,但因为分解出的光照偏蓝色,所以这个Shading图像也就有了颜色。最终通过形状,光照,反照率生成重建的图像。

从原始单目图像学习三维形变物体的方法,并且没有额外的监督信号。这个方法是基于自编码器的架构,将输入的图像转换为深度、反射率、视角和照明信息。

为了分解这些没有监督的组件,作者使用了这样一个事实,即在大体上很多物体都是一个对称结构。对照明的推理允许我们去发掘潜在的对称,尽管由于阴影等原因外表不是对称的。

从深度(depth)、反射率(albedo)、视角(viewpoint)、光照(lighting)和每个像素点的对称概率(confidence)5个角度进行建模。

a表示反射率albedo, d表示深度图depth,l表示光照方向light,w表示视角方向viewpoint

人脸重建一共分为两步:

①光照函数Λ:使用深度图d、光照方向l和反射率a,生成一张标准视角 w = 0下的人脸图像,其中d和a为正面的.

②重映射函数Π:将①中生成的标准视角下的人脸图像,再结合视角w以及深度图,最终得到重建的人脸图像

02 重建损失

其中l为重建误差,采用拉普拉斯分布,σ为每个像素点是对称点的概率,由拉普拉斯分布的曲线可知,分子相同时(不是很大,基本靠近0)分母越大,则概率分布越小,对应到模型中,σ 的值小,则说明该点不为对称点,则该点的误差更加重要,同时,为了隐式地约束图像的对称性,将深度图d和反射率a进行左右翻折后,同样约束重建图像和原始图像相同。

总的损失为:

03 实验结果

定量指标:

主要采用尺度不变深度误差(SIDE)和平均角度偏差(MAD)两个评价指标来评价算法的重建效果。

比例不变深度误差(SIDE)定义为重建的人脸深度与实际人脸深度之间的误差,定义如下:

平均角度偏差(MAD)定义为重建人脸法线与实际人脸法线之间的平均误差。

本文的方法在有监督和相关的无监督方法上性能表现良好。

定性指标:

如图可见,我们的方法与其他方法相比,我们方法质量,清晰度都比较好。

下面是重建后的图片的展示。

参考文献:

Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proc. ICCV, 2015

PascalPaysan,ReinhardKnothe,BrianAmberg,SamiRomd- hani, and Thomas Vetter. A 3D face model for pose and illumination invariant face recognition. In Advanced video and signal based surveillance, 2009

经典论文合集 —

资源下载: