来源:投稿 作者:小灰灰
编辑:学姐
随着计算机视觉和三维测量领域方面的深入研究,如何重建真实人脸的三维模型成了研究的热点之一。
人脸作为人体结构中外在表现能力最强的一部分,承载了很多的人类面部信息,世界上不存在完全一致的人脸,例如双胞胎,兄弟姐妹之间都有或多或少的差异,这些差异表现在人的脸型,眉毛,酒窝,表情和肤色等一些面部特征。
通过每张人脸的不同特征,可以获取到很多有意义的信息,用来进行人脸检测,年龄识别等计算机视觉领域。
当今世界,二维照片极易获取,但随着经济的发展和科技的进步,二维照片的研究已经不能满足人脸的需求了,但是相比较二维照片,三维空间中的人脸模型包含了更复杂和更丰富的生物信息,相比较二维图片,三维照片多了一个维度,可以更能体现人脸的形状和细节信息。
基于单张图像的三维人脸重建可以分为四类:
-
基于传统的人脸三维重建方法,
-
基于形变模型的三维重建方法,
-
基于端到端的三维人脸重建方法,
-
基于深度学习的三维人脸重建方法,
-
基于无监督的三维人脸重建。
接下来我们来学习一下这篇论文中的无监督三维人脸重建。
论文标题:
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
论文链接:
https://arxiv.org/abs/1911.11130
论文代码:
https://github.com/elliottwu/unsup3d
数据集:
CelebA[1],3DFAW,和BFM[2]。
CelebA是一个大规模的人脸数据集,由超过20万张野外真实人脸图像组成,并用边界框进行了注释。
3DFAW包含23k个图像,其中有66个3D关键点注释,我们使用这些注释来评估我们的3D预测。我们粗略地裁剪头部区域的图像,并使用官方的train/val/test分割。
BFM(Basel Face Model)是一种合成人脸模型,我们用它来评估三维重建的质量(因为野外数据集缺乏真实感)。按照[34]的协议生成一个数据集,随机对形状、姿势、纹理和照明进行采样。我们使用SUN数据库中的图像作为背景,并保存地面真实深度图以供评估。
01 网络结构
一般的基于无模型的三维人脸重建,是通过分析单张图像中的明暗信息来判断物体表面的法线方向,从而恢复表面形状的方法。
首先输入一张在真实世界中拍摄的环境不受限的128*128大小的RGB人脸图像,在朗伯假设下,将图像分解为形状,反射和光照三方面的信息。
形状信息就是法向图,反射信息由于已经采用朗伯假设,反射信息表示为反照率(Albedo),简单的理解就像3D游戏建模里的纹理贴图。
光照信息表示成一个三通道,每个通道9参数的矩阵,总共27个光照参数。通过卷积神经网络提取出图像的feature map,引入了两个残差块Normal Residual Blocks和Albedo Residual Blocks,这两个残差块的作用就是从图像的feature map中学习分解出法向和反照率两方面的信息。
经过残差块后,通过法向、反照率以及图像特征来回归光照参数。这个SH light就是最终的球谐光照。
然后法向特征与反照率特征分别经过卷积后生成最终的Normal和Albedo。
这里Normal和光照经过渲染后生成Shading图像,这个图像就是生成的三维形状的白模在光照下的情况,Shading本来是灰色图像的,但因为分解出的光照偏蓝色,所以这个Shading图像也就有了颜色。最终通过形状,光照,反照率生成重建的图像。
从原始单目图像学习三维形变物体的方法,并且没有额外的监督信号。这个方法是基于自编码器的架构,将输入的图像转换为深度、反射率、视角和照明信息。
为了分解这些没有监督的组件,作者使用了这样一个事实,即在大体上很多物体都是一个对称结构。对照明的推理允许我们去发掘潜在的对称,尽管由于阴影等原因外表不是对称的。
从深度(depth)、反射率(albedo)、视角(viewpoint)、光照(lighting)和每个像素点的对称概率(confidence)5个角度进行建模。
a表示反射率albedo, d表示深度图depth,l表示光照方向light,w表示视角方向viewpoint
人脸重建一共分为两步:
①光照函数Λ:使用深度图d、光照方向l和反射率a,生成一张标准视角 w = 0下的人脸图像,其中d和a为正面的.
②重映射函数Π:将①中生成的标准视角下的人脸图像,再结合视角w以及深度图,最终得到重建的人脸图像
02 重建损失
其中l为重建误差,采用拉普拉斯分布,σ为每个像素点是对称点的概率,由拉普拉斯分布的曲线可知,分子相同时(不是很大,基本靠近0)分母越大,则概率分布越小,对应到模型中,σ 的值小,则说明该点不为对称点,则该点的误差更加重要,同时,为了隐式地约束图像的对称性,将深度图d和反射率a进行左右翻折后,同样约束重建图像和原始图像相同。
总的损失为:
03 实验结果
定量指标:
主要采用尺度不变深度误差(SIDE)和平均角度偏差(MAD)两个评价指标来评价算法的重建效果。
比例不变深度误差(SIDE)定义为重建的人脸深度与实际人脸深度之间的误差,定义如下:
平均角度偏差(MAD)定义为重建人脸法线与实际人脸法线之间的平均误差。
本文的方法在有监督和相关的无监督方法上性能表现良好。
定性指标:
如图可见,我们的方法与其他方法相比,我们方法质量,清晰度都比较好。
下面是重建后的图片的展示。
参考文献:
Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proc. ICCV, 2015
PascalPaysan,ReinhardKnothe,BrianAmberg,SamiRomd- hani, and Thomas Vetter. A 3D face model for pose and illumination invariant face recognition. In Advanced video and signal based surveillance, 2009
— 经典论文合集 —