本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。
一、研究背景
对文档图像进行拍照经常受到透视形变和几何形变的干扰,这会影响文档图像的可读性和OCR系统的性能。现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像,而忽视存在大环境边界的文档图像和没有环境边界的文档图像(如图1所示),导致无法处理这类图像。最直接的方案是将所有这种情况包含在训练数据里面,但是发现效果并不理想。另一个解决方案是在矫正之前加入文档图像检测器将文档区域裁剪出来,但是对于没有环境边界的文档图像还是没办法解决。本文提出Marior用于解决该问题。其包含两个子模块:边界去除模块和迭代式内容矫正模块,边界去除模块先将所有情况的文档图像统一成去除环境边界的图像,内容矫正模块再专注于文档内容的矫正,以此将边界去除和内容矫正解耦开来,从而解决环境边界多样的情况,同时也能减轻网络的学习难度。
二、方法原理简述
2.1 边界去除模块(MRM)
Mask预测:如图3所示。在DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外,考虑到文档图像的Mask有相对固定的模式(一个完整的连通域,接近四边形,相对直的边缘等),本文利用GAN将这种先验引入到模型当中。
2.2 迭代式内容矫正模块(ICRM)
三、主要实验结果及可视化结果
从表1和表2消融实验可以看出Mask预测网络以及内容加权L2 Loss的有效性。从表3和表4可以看出,随着矫正渐进式地进行,矫正性能不断提高,证明本文方法中边界去除初步矫正、迭代式内容矫正的有效性。从表3、图7和图8可以看出本文方法在紧密裁剪图像上与现有SOTA方法取得相当效果的同时,在其余环境边界情况下都能取得更好的效果(且不需要额外的检测器)。从表4和图9可以看到本文方法在取得好的矫正性能的同时在速度上也有优势。
四、总结及讨论
该论文创新性地提出了一种基于边缘去除和迭代式内容矫正的复杂文档图像校正,不仅在紧密裁剪文档图像上取得SOTA的矫正结果,还能处理含有大环境边界的文档图像以及不含环境边界的文档图像,填补了该领域在这方面的研究空白。
五、相关资源
Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: https://arxiv.org/abs/2207.11515
Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: https://github.com/ZZZHANG-jx/Marior