Jishi live | csig-eccv2020论文预交换在线研讨会即将到来！

|积世在线分享第68期|

今年的欧共体会议将于2020年8月23日至28日在网上举行。目前，ECCV已开始颁奖。今年共收到有效论文5025篇，数据是欧盟的两倍，创历史新高。最后，接受并发表了1361篇文章，接受率为27%，略低于上届。

8月15日（星期六）-8月16日（星期日），极市将独家直播由中国图象图形学学会（CSIG）主办的CSIG-ECCV 2020论文预交流在线专题学术报告会。其中，15日的会议由CSIG-机器视觉专委会、山东大学承办。16日的会议由广东省图象图形学会（GDSIG）协办，深圳大学、华南理工大学、CSIG-文档图像分析与识别专委会、GDSIG-计算机视觉专委会承办。

关注“极市平台”公众号，回复“68”可获取会议免费直播链接及讲者PPT资源。

CSIG-ECCV 2020论文预交流专题学术报告会，为了给相关领域研究者、技术开发人员和研究生介绍计算机视觉前沿理论、方法及技术的一些最新进展，邀请了国内该领域部分优秀团队的青年学子介绍他们今年ECCV 2020录用论文的最新研究成果。

01 直播信息

时间：2020年8月15日（周六）—8月16日（周日）

主题：CSIG-ECCV 2020论文预交流专题学术报告会

02会议流程

8月15日08:30-17:10

2020年8月15日上午（会议主持人：沈琳琳教授、郑伟诗教授）

08:30 – 08:50

腾讯会议系统登录开放（会议ID另行通知）

08:50 – 09:00

会议开幕致辞（赖剑煌教授）

09:00 – 09:25

TENet: Triple Excitation Network for Video Salient Object Detection

报告人*：任苏成、何盛烽

09:25 – 09:50

Geometry Constrained Weakly Supervised Object Localization

报告人：卢伟增、沈琳琳

09:50 – 10:15

Label Propagation with Augmented Anchors: A Simple Semi-Supervised Learning baseline for Unsupervised Domain Adaptation

报告人：张亚斌、贾奎

10:15 – 10:40

Suppressing Mislabeled Data via Grouping and Self-Attention

报告人：王锴、乔宇、彭小江

10:40 – 11:05

An Asymmetric Modeling for Action Assessment

报告人：高基彬、郑伟诗

11:05 – 11:30

RD-GAN: Few/Zero-Shot Chinese Character Style Transfer via Radical Decomposition and Rendering

报告人：黄耀雄、金连文、王永攀

11:30 – 11:55

Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection

报告人：赵赣龙、李冠彬、林倞

2020年8月15日下午（会议主持人：贾奎教授）

14:30 – 14:55

Interactive Multi-Dimension Modulation with Dynamic Controllable Residual Learning for Image Restoration

报告人：何静雯、乔宇、董超

14:55 – 15:20

Self-Supervised CycleGAN for Object-Preserving Image-to-Image Domain Adaptation

报告人：谢鑫鹏、沈琳琳

15:20 – 15:45

Human Interaction Learning on 3D Skeleton Point Clouds for Video Violence Recognition

报告人：苏宇堃、吴庆耀

15:45 – 16:10

XingGAN for Person Image Generation

报告人：唐浩、Philip H.S. Torr、Nicu Sebe

16:10 – 16:35

Generative Low-bitwidth Data Free Quantization

报告人：许守恺、谭明奎

16:35 – 17:00

Unselfie: Translating Selfies to Neutral-pose Portraits in the Wild

报告人：马里千、吕婧琬、Alexei A. Efros

17:00 – 17:10

闭幕式致辞（金连文教授）

8月16日（13:30-17:50）

专题

时间

主题

讲者

13:30-13:35

嘉宾致辞

林宙辰

神经网络结构搜索

13:35-13:50

S2DNAS:Transforming Static CNN Model for Dynamic Inference via Neural Architecture Search

袁之航

13:50-14:05

TF-NAS: Rethinking Three Search Freedoms of Latency-Constrained Differentiable Neural Architecture Search

胡一博

14:05-14:20

A Generic Graph-based Neural Architecture Encoding Scheme for Predictor-based NAS

宁雪妃

对抗学习

14:20-14:35

Multimodal Shape Completion via Conditional Generative Adversarial Networks

吴润迪

14:35-14:50

CPGAN: Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

梁家栋

14:50-15:05

Unpaired Image-to-Image Translation using Adversarial Consistency Loss

赵怡浩

15:05-15:20

Dual Adversarial Network: Toward Real-world Noise Removal and Noise Generation

岳宗胜

15:20-15:35

TuiGAN: Learning Versatile Image-to-Image
Translation with Two Unpaired Images

林剑新

15:35-15:45

中场休息

图像语义分割

15:45-16:00

Part-aware Prototype Network for Few-shot Semantic Segmentation

刘永飞

16:00-16:15

Class-wise Dynamic Graph Convolution for Semantic Segmentation

胡含哲

16:15-16:30

Improving Semantic Segmentation via Decoupled Body and Edge Supervision

李祥泰

16:30-16:45

EfficientFCN: Holistically-guided Decoding for Semantic Segmentation

刘建博

自监督和半监督学习

16:45-17:00

Self6D: Self-Supervised Monocular 6D Object Pose Estimation

王谷

17:00-17:15

CycAs: Self-supervised Cycle Association for Learning Re-identifiable Descriptions

王重道

17:15-17:30

Label Propagation with Augmented Anchors: A Simple Semi-Supervised Learning baseline for Unsupervised Domain Adaptation

张亚斌

17:30-17:45

Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning

郁青

17:45-17:50

嘉宾总结

林宙辰

03报告题目及中文摘要

8月15日会议

报告1. TENet: Triple Excitation Network for Video Salient Object Detection (基于三重激励网络的视频显著性检测)

摘要：本文提出一种简单有效三重激励网络，从空间、时间和在线激励三个方面加强视频显著目标检测(VSOD)。这些激励机制是根据课程学习的精神而设计的，旨在通过使用标签有选择地激发特征激活来减少训练开始时的学习模糊性。然后通过课程率的改变，逐步减少标签激励的权重，并用课程互补图代替标签，以更好更快地收敛。特别是，空间激励加强了对清晰物体边界的特征激活，而时间激励通过运动来强调时空显著区域。空间和时间激励可以解决视频显著性检测的显著性转移问题和时空特征之间的冲突。此外，我们的半课程学习设计实现了视频显著性检测的第一个在线优化策略，允许在测试过程中激励和提高显著性响应，而无需重新训练。所提出的三重激励可以很容易地嵌入不同的视频显著性检测方法。大量的实验表明，这三种激励方法都是有效的，而且该方法的性能优于现有的图像和视频显著目标检测方法。

报告人：任苏成 (指导老师：何盛烽)

报告2. Geometry Constrained Weakly Supervised Object Localization (基于几何约束的弱监督目标定位)

摘要：我们提出一种用于弱监督目标定位(WSOL)的几何约束网络GC-Net，它由三个模块组成：检测器，生成器和分类器。检测器预测一组描述几何形状(即椭圆或矩形)的系数所定义的物体位置，该几何形状受到发生器产生的掩模的几何约束。分类器将生成的掩码图像作为输入，并对对象和背景执行两个互补的分类任务。为了使掩模更紧凑和更完整，我们提出了一种新颖的多任务损失函数，该函数考虑了几何形状的面积，分类交叉熵和负信息熵。与以前的方法相比，GC-Net经过端到端训练并预测对象位置，而无需任何可能需要额外调整的后处理(例如阈值确定)。在CUB-200-2011和ILSVRC2012数据集上进行的大量实验表明，GC-Net在很大程度上优于最新方法。

报告人：卢伟增 (指导老师：沈琳琳)

报告3. Label Propagation with Augmented Anchors: A Simple Semi-Supervised Learning baseline for Unsupervised Domain Adaptation (基于扩展锚点的标签传播算法:一个用于无监督域适应任务的半监督基线模型)

摘要：基于半监督学习任务与无监督域适应任务之间的相似性，半监督学习中的基础原理（如聚类假设）在最近的无监督域适应算法中被广泛使用。然而，这些半监督原理是基于同一数据分布的先验假设提出的，故而在数据分布存在差异的域适应任务中的适用性是未知的。在本文中，我们研究了如何针对域适应任务对半监督算法进行适当扩展。以标签传播算法为例，我们首先分析了直接将标签传播算法用于域适应任务的弊端，继而从理论上分析了如何修正仿射矩阵可以实现更优的分类表现。基于上述分析，本文提出了一种基于扩展锚点的标签传播算法。在该算法中，我们引入具有高置信度伪标签的虚拟样本(即扩展的锚点)来增强标签传播算法在域适应任务上的表现。通过将该方法和域不变特征学习相结合，我们可以更好的解决域适应问题。实验表明，如此简洁的半监督算法的扩展方法在域适应任务上的性能远优于传统的基于域不变特征学习的方法，而且该方法可以为现有域适应算法提供更优的目标数据的伪标签，从而进一步提升现有方法的性能。最后，我们的研究展示了在域适应任务(即数据分布存在差异的情况)中研究半监督学习技术的深远意义。

报告人：张亚斌 (指导老师：贾奎)

报告4. Suppressing Mislabeled Data via Grouping and Self-Attention (基于分组和自我注意力机制的错误标签抑制)

摘要：深度网络在大规模的干净数据上取得了很好的效果，但是当从噪声标签中学习时，性能会显著降低。为了抑制错误标记数据的影响，本文提出了一种概念简单而有效的训练块，称为注意特征混合(AFM)，它通过群组中的样本交互，更多地关注干净的样本，而较少地关注错误标记的样本。具体地说，即插即用的AFM首先利用分组模块构造群体，并为分组样本分配注意权重，然后使用具有注意权重的混合模块对大量噪声抑制样本进行插值。AFM在噪声鲁棒深度学习方面有几个吸引人的优点。(i) 它不依赖于任何假设和额外的干净子集。(ii) 在大量插值的情况下，与原始噪声比相比，噪声样本的比率显著降低。(iii)与分类器联合优化插值权重，通过低关注度抑制噪声数据的影响。(iv) 它部分继承了混合的邻域风险最小化，以减轻过度拟合，同时通过在混合邻域分布中对误标数据进行较少的特征目标向量采样来改善过度拟合。大量的实验表明，AFM在两个具有挑战性的现实世界噪声数据集(Food101N和Clothing1M)上产生了最先进的结果。

报告人：王锴 (指导老师：乔宇、彭小江)

报告5. An Asymmetric Modeling for Action Assessment (一种在动作评估任务中的非对称建模方法)

摘要：动作评估是一个对动作的演示进行评估的任务。它广泛适用于许多现实场景中，例如医疗场景和体育赛事。然而，现有的动作评估方法大多局限于单个人的动作，尤其是缺乏对主体之间(例如人与物之间)不对称关系建模的方法；因为在许多交互式动作中主体之间始终存在从属关系，这种局限性破坏了它们评估包含不对称交互式动作的能力。在这项工作中，我们对主体之间的不对称交互关系进行建模，从而进行动作评估。特别地，我们提出了一种非对称交互模块(AIM)，明确地模拟一个动作中智能主体之间的非对称交互，在该动作中，我们将这些主体分为主要主体(例如人)和次要主体(例如物体)。我们在包含外科手术动作的JIGSAWS数据集上进行了实验，并另外收集了用于互动式运动动作评估的新数据集TASD-2。在两个交互式动作数据集上的实验结果表明了此模型的有效性，并且我们的方法达到了最优的性能。在AQA-7数据集上进行的扩展实验还验证了我们的框架在传统动作评估的泛化能力。

报告人：高基彬 (指导老师：郑伟诗)

报告6. RD-GAN: Few/Zero-Shot Chinese Character Style Transfer via Radical Decomposition and Rendering (通过部首分解与渲染的少/零样本汉字字体风格转换)

摘要：风格转换因为其应用的多样性而一直备受关注。与英文字符或一般的艺术风格转换任务相比，汉字字体风格转换仍然是一个重大挑战，主要由于汉字庞大的类别数(GB18010-2005标准中规定70224类)和复杂的单字结构。最近有人提出了一些基于GAN的风格转换方法，但是这些方法将汉字作为一个整体来处理，从而忽略了构成汉字的结构和部首。在这篇论文中，我们提出了一种新的基于部首分解与渲染的生成对抗网络(RD-GAN)，并且通过利用汉字由部首组成的特性，实现了少(零)样本汉字字体风格转换。我们提出的RD-GAN包括三个模块: 部首提取器(REM)，部首渲染模块(RRM)以及多层次判别器(MLD)。在实验部分也表明了，我们的方法通过利用汉字的部首构成，展示出强大的少(零)样本学习能力以及泛化能力。

报告人：黄耀雄 (指导老师：金连文、王永攀)

报告7. Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection (基于区域定位和分类协同优化的领域自适应物体检测方法)

摘要：领域自适应的物体检测算法研究从带标注的源领域数据中训练得到的物体检测器迁移到未标注的目标领域数据中并尽可能提升目标域的检测性能。在本文中，我们首次揭露了在较大的领域差异的情况下，基于区域卷积神经网络的双阶段物体检测算法中区域候选网络模块和区域分类模块展示出截然不同的迁移能力。其中区域分类模块可以表现出较好的性能但需要区域候选网络提供质量较高的候选区域作为保证，然而主干网络简单的领域对齐对于区域候选网络的适配有效性是不够的。在本文中，我们深入探讨了区域候选网络模块和区域分类模块之间对于领域适配的一致性和差异性，并使用二者协作训练的方式，采用各自高置信度的样本来训练另一个模块。实验结果表明，我们提出的算法在各大领域自适应的物体检测评测数据集上都能取得当前最佳的性能。

报告人：赵赣龙 (指导老师：李冠彬、林倞)

报告8. Interactive Multi-Dimension Modulation with Dynamic Controllable Residual Learning for Image Restoration (基于动态可控残差学习的图像复原的交互式多维调节)

摘要：交互式图像复原旨在通过调节确定级别的控制系数来生成复原图像。以前的工作仅限于用单个系数调节图像。但是，实际图像始终包含多种类型的退化，而这些退化不能由一个系数很好地确定。本文提出并研究多维(MD)调节问题，它旨在跨多种退化类型和级别调节输出效果。与以前的单维(SD)调节相比，MD被设置为自适应地处理多个退化并缓解不同退化中的不平衡学习问题。我们还提出了一种深度结构-CResMD，它新引入了可控残留连接来实现多维调节。具体来说，我们在常规的残差连接上添加了一个控制变量，以允许对输入残差进行加权求和。这些权重的值由另一个条件网络生成。我们进一步提出了一种基于Beta分布的新数据采样策略，以平衡不同的退化类型和水平。使用退化图像和退化信息作为输入，网络可以输出相应的复原图像。通过调节条件向量，用户可以在测试时控制MD空间中的输出效果。大量实验表明，提出的CResMD实现了在SD和MD调节任务上均具有出色的性能。

报告人：何静雯 (指导老师：乔宇、董超)

报告9. Self-Supervised CycleGAN for Object-Preserving Image-to-Image Domain Adaptation (基于自监督CycleGAN的图像领域自适应)

摘要：基于生成对抗网络(GAN)的图像转换方法(例如CycleGAN)很容易在图像迁移过程中发生物体形变的问题，这降低了它们在领域适应等任务上的实用性。通过增加分割网络作为辅助正则化来防止内容失真是一种不错的方法。但是，这些网络需要获取额外的像素级标签才能进行学习，很难应用到实际场景。在本文中，我们提出了一种新颖的不需要任何标注数据的对抗网络(OP-GAN)来解决图像形变的问题。OP-GAN主要包含一个可以在图像迁移过程中保持图像内容一致性的自监督模块和用于图像迁移的生成器/判别器。我们在三个公开的数据集上评估了我们提出来的对抗网络。实验结果表明，我们的OP-GAN可以生成视觉一致的图像，并在不同领域适应场景中显着提高语义分割的准确率。

报告人：谢鑫鹏 (指导老师：沈琳琳)

报告10. Human Interaction Learning on 3D Skeleton Point Clouds for Video Violence Recognition (基于人体3D骨架点云交互学习的暴力视频识别)

摘要：本文介绍了一种通过从人体骨架点角度学习人之间的上下文关系来识别暴力行为的新方法。与以前的工作不同，我们首先从视频中提取的人体骨骼序列中制定3D骨骼点云，然后在这些3D骨骼点云上进行交互学习。我们提出了一种新颖的骨架点相互作用学习(SPIL)模块来对骨架点之间的相互作用进行建模。具体而言，通过构建局部区域点之间的特定权重分配策略，SPIL旨在根据其特征和时空位置信息，有选择地关注它们中最相关的部分。为了捕获各种类型的关系信息，设计了一种多头机制来聚合来自独立头的不同特征，以共同处理点之间的不同类型的关系。实验结果表明，我们的模型优于现有网络，并在视频暴力数据集上取得了最新的性能。

报告人：苏宇堃 (指导老师：吴庆耀)

报告11. XingGAN for Person Image Generation (基于XingGAN的人体图像生成)

摘要：我们提出了一种新颖的生成对抗网络(XingGAN或CrossingGAN)用于人体图像生成任务，即将给定人的姿势转换为特定的姿势。我们提出的Xing生成器由两个生成分支组成，它们分别对人的外观和形状特征进行建模。此外，我们还提出了两个新颖的模块，它们可以有效地以交叉的方式转移和更新形状和外观特征，以此来提高对方。这个想法是任何其他现有的基于GAN的图像生成工作都没有考虑的。在两个具有挑战性的数据集(即Market-1501和DeepFashion)上进行的广泛实验表明，我们提出的XingGAN在客观的定量评分和主观的视觉真实性方面都要优于目前最好的方法。

报告人：唐浩 (指导老师：Philip H.S. Torr、Nicu Sebe)

报告12. Generative Low-bitwidth Data Free Quantization (基于生成器的低比特无数据量化)

摘要：神经网络量化是压缩深度模型并提升其执行效率的有效途径之一，使它们可以被部署于移动/嵌入式设备上。为获得更好的性能，现有的量化方法需要使用原始数据进行校准或微调。但是，由于许多实际场景中的机密或隐私原因，我们可能无法获取原始数据，导致现有的量化方法不适用。此外，由于缺少原始数据，我们难以使用生成对抗网络(GAN)生成数据。尽管全精度模型可能包含丰富的数据信息，但利用这些信息来恢复原始数据或生成新的有意义的数据是困难的。在本文中，我们研究了名为“基于生成器的低比特无数据量化(GDFQ)”的简单有效的方法以消除数据依赖。具体来说，我们提出了一种知识匹配生成器，可通过利用预训练模型中的分类边界知识和分布信息生成有意义的假数据。借助生成的数据，我们可以从预训练模型中学习知识以对模型进行量化。三个数据集上的实验结果证明了我们方法的有效性。值得一提的是，我们的方法在4比特量化上的精度比现有的无数据量化方法更高。

报告人：许守恺 (指导老师：谭明奎)

报告13. Unselfie: Translating Selfies to Neutral-pose Portraits in the Wild (自拍照转肖像照:自然场景下的摄影视角转换)

摘要：随着智能手机的普及，越来越多的人开始使用手机为自己拍照，即“自拍照”。由于此类照片不需要专门的设备或第三方摄影师，因此拍摄方便。但是，在自拍照中，诸如人体手臂长度之类的约束通常会使身体姿态看起来不自然。为了解决这个问题，我们提出了一种新颖的摄影视角转换，可以将自拍照自动转换为中性姿态的肖像照。为了实现这一目标，我们首先收集未配对的数据集，并介绍一种基于配对数据仿真的自学习方法。然后，为了将自拍照转为肖像照，我们提出了一个新的三阶段方法：1) 匹配中性目标姿态，2) 进行人体纹理补全，3) 优化人体细节，补全背景，并将人体与背景融合。为了获取合适的中性目标姿态，我们提出了一种新颖的最近邻姿态搜索模块。该模块使人体姿态变换任务更加容易，并且能够生成多个中性姿态结果，用户可以在其中选择自己喜欢的最佳姿态。定性和定量的评估表明我们的方法优于其他基准方法。

报告人：马里千 (指导老师：吕婧琬、Alexei A. Efros)

8月16日会议

论文1：S2DNAS：通过神经网络架构搜索转换静态CNN模型实现动态推理

报告人：袁之航（北京大学博士生）

摘要：最近，动态推理作为一种有前途的降低深度卷积神经网络（CNNs）计算成本的方法被提出。与静态方法(如权重修剪)相比，动态推理根据每个输入样本自适应地调整推理过程，可以在保持模型整体性能的前提下，大大降低 “容易”样本的计算成本。在本文中，我们引入了一个通用框架，S2DNAS，它可以通过神经架构搜索来改造各种静态CNN模型以便支持动态推理。为此，基于给定的CNN模型，我们首先生成一个CNN架构空间，其中每个架构都是由给定模型使用一些预定义的变换生成的多级CNN。然后我们提出一种基于强化学习的方法，在生成的空间中自动搜索最优的CNN架构。最后，利用搜索到的多阶段网络，我们可以通过自适应地选择一个阶段对每个样本进行评估来进行动态推理。与以往在推理中引入不规则计算或复杂控制器或从头开始重新设计CNN模型的工作不同，我们的方法可以通用于大多数流行的CNN架构，并且搜索到的动态网络可以直接利用现有的深度学习框架工作部署在各种硬件设备中。

论文2：TF-NAS：再论时延约束下可微神经网络架构搜索中的三种自由度

报告人：胡一博（京东研究员）

摘要：赋予机器人类水平的学习设计能力，使之能够自主地感知环境并设计满足各种约束需求的计算模型是机器学习领域的前沿方向之一。该论文从算子、深度和宽度三个自由度重新思考了当前主流的可微分网络架构搜索算法，通过大量实验分析与验证，提出一种新的网络架构自动搜索方法，从而稳定高效地从庞大的架构空间中搜索到高准确性的网络架构，同时严格满足时延约束。通过简单巧妙的设计，该方法能有效地缓解可微分搜索中算子崩溃、架构冗余、无法满足精准资源约束的问题。在使用单张Titan RTX GPU的情况下，该方法在ImageNet上仅用1.8天便搜索到76.9% Top-1准确性的网络架构，在准确性和推断时延上均超越Google的EfficientNet-B0。

论文3：一种用于基于预测器的神经网络架构搜索的通用图神经网络编码方案

报告人：宁雪妃（清华大学博士生）

摘要：本工作提出了一种新型的基于图的神经架构编码方案(GATES)，以改进基于预测器的神经架构搜索模型。具体来说，GATES与现有的基于图的方案不同，将运算建模为传播信息的变换，模拟了神经架构的实际数据处理。GATES对神经架构的建模比较合理，可以从 “节点上的操作 “和 “边缘上的操作 “两个单元搜索空间中一致编码架构。在各种搜索空间上的实验结果证实了GATES在改进性能预测器方面的有效性。此外，配备改进后的性能预测器之后，基于预测器的神经架构搜索（NAS）流的样本效率得到提升。

论文4：通过条件生成对抗网络进行多模态形状补全

报告人：吴润迪（北京大学图灵班）

摘要：几种用于填补形状中缺失的区域的方法已经被提出。但是，这些方法只用单一的输出来完成缺失形状，忽略了推理缺失几何形状时的模糊性。因此，我们提出了多模态形状补全问题，即通过学习一对多的映射，寻求用多个输出完成缺失形状。我们开发了第一个多模态形状补全方法，它通过条件生成建模来完成局部形状，而不需要配对的训练数据。我们的方法通过将补全的条件设定在学习到的可能结果的多模态分布上，从而提炼出模糊性。我们在多个包含不同形状缺失的数据集上对该方法进行了广泛的评估，并在几个基线方法和我们方法的变体之间进行了定性和定量的比较，证明了我们的方法在完成形状补全的多样性和质量方面的优点。

论文5：CPGAN：用于文本到图像合成的全谱内容分词生成对抗网络

报告人：梁家栋（北航博士生）

摘要：文本到图像合成的典型方法是寻求设计有效的生成架构来直接模拟文本到图像的映射。由于模态鸿沟，这是相当艰巨的任务。在本文中，我们规避了这一问题，重点对输入文本和合成图像的内容进行彻底解析，在语义层面上对文本到图像的一致性进行建模。特别是在文本编码过程中，我们设计了一种记忆结构，通过探索词汇中的每个词与其在相关图像中的各种视觉语境之间的语义对应关系来解析文本内容。同时对合成的图像进行解析，以对象感知的方式学习其语义。此外，我们还定制了一个条件判别器来模拟单词和图像子区域之间的细粒度相关性，以推动文本-图像的语义对齐。在COCO数据集上的广泛实验表明，我们的模型显著提升了性能（从35.69到52.73的Inception Score）。

论文6：利用对抗一致性损失函数进行未配对的图像到图像转换

报告人：赵怡浩（北京大学本科生）

摘要：未配对的图像到图像转换是一类视觉问题，其目标是利用未配对的训练数据找到不同图像之间的映射。周期一致性损失是此类问题中广泛使用的约束条件。然而由于严格的像素级约束，它不能进行形状变化、去除大物体或忽略不相关的纹理。在本文中，我们提出了一种用于图像到图像翻译的新型对抗性一致性损失。这种损失不要求被转换的图像恢复为特定的源图像，但可以鼓励被转换的图像保留源图像的重要特征，并克服上述周期一致性损失的缺点。我们的方法在三个具有挑战性的任务上取得了最先进的结果：眼镜去除、男性到女性的转换和自拍到动漫的转换。

论文7：双重对抗网络：向真实世界的噪音去除和生成迈进

报告人：岳宗胜（西安交通大学博士生）

摘要：现实世界的图像噪声去除是计算机视觉中一项长期存在而又极具挑战性的任务。在这项工作中，我们提出了一个新颖的统一框架，同时处理噪声去除和噪声生成任务。在传统的MAP框架中，我们提出的方法不是仅仅推断以观察到的噪声图像为条件的潜在干净图像的后验分布，而是学习干净-噪声图像对的联合分布。具体来说，我们用两种不同的因子化形式来逼近联合分布，可以将其表述为一个将噪声图像映射到干净图像的去噪器映射和一个将干净图像映射到噪声图像的生成器。学习到的联合分布隐含了噪声图像和干净图像之间的所有信息，避免了传统的手动设计图像先验和噪声假设的必要性。此外，我们的去噪器的性能可以通过增加原始训练数据集与学习生成器来进一步提高。此外，我们提出了两个指标来评估生成的噪声图像的质量，据我们所知，这种指标是首次沿着这个研究路线提出的。我们已经进行了大量的实验，以证明我们的方法在实际的噪声去除和生成任务中都优于现有的方法。

论文8：TuiGAN：通过两张未配对的图像学习多用途的图像到图像转换

报告人：林剑新（中国科学技术大学博士生）

摘要：无监督的图像到图像转换(UI2I)任务处理的是学习两个领域之间没有配对图像的映射。虽然现有的UI2I方法通常需要许多来自不同域的未配对图像进行训练，但有许多场景下的训练数据相当有限。在本文中，我们认为即使每个域都只包含一张图像，UI2I仍然可以实现。为此我们提出了TuiGAN，一个只在两张未配对的图像上进行训练的生成模型，相当于单次无监督学习。通过TuiGAN，图像以粗到细的方式进行转换，生成的图像从全局结构逐渐细化到局部细节。我们进行了大量的实验来验证我们的多功能方法可以在各种UI2I任务上优于强基线方法。此外，TuiGAN能够实现与最先进的UI2I模型相媲美的性能，而这些模型都是用足够的数据训练出来的。

论文9：面向小样本语义分割的基于局部感知原型网络

报告人：刘永飞（上海科技大学博士生）

摘要：小样本语义分割的目的是只用几个带标注的例子学习分割新的对象类，这在现实世界中有广泛的应用。现有的大多数方法要么专注于单方面小样本分割的限制性设置，要么存在着对象区域覆盖不完全的问题。在本文中，我们提出了一种新型的基于原型表示法的小样本语义分割框架。我们的关键思想是将全局类表示分解为一组局部感知原型，能够捕获多样化和细粒度的对象特征。此外，我们还提出利用未标记的数据来丰富我们的局部感知原型，从而对语义对象的类内变化进行更好的建模。我们开发了一种新型的图神经网络模型来生成和增强所提出的基于已标记和未标记图像的局部感知原型。在两个基准上进行的广泛实验评估表明，我们的方法相比于现有技术有相当大的优势。

论文10：面向语义分割的类动态图卷积

报告人：胡含哲（北京大学硕士生）

摘要：通过扩张卷积、金字塔池或自注意力机制，以局部或全局的方式利用上下文信息，在最近语义分割方面的工作中取得了很大的进展。为了避免前人工作中潜在的误导性的上下文信息聚合，我们提出了一个类动态图卷积（CDGC）模块来自适应传播信息。图推理是在同一类的像素之间进行的。在提出的CDGC模块的基础上，我们进一步介绍了类动态图卷积网络(CDGCNet)，它由CDGC模块和基本分割网络两大部分组成，形成了由粗到细的范式。具体来说，CDGC模块将粗分割结果作为类掩码，提取节点特征以进行图构建，并对构建的图进行动态图卷积，学习特征聚合和权重分配。然后将提炼的特征和原始特征进行融合，得到最终的预测结果。我们在Cityscapes、PASCAL VOC 2012和COCO Stuff等三个流行的语义分割基准上进行了大量的实验，都达到了最先进的性能。

论文11：通过解耦的主体和边缘监督改进语义分割

报告人：李祥泰（北京大学博士生）

论文12：EfficientFCN:面向语义的整体引导解码器

报告人：刘建博（香港中文大学博士生）

摘要：对于语义分割来说性能和效率都很重要。目前最先进的语义分割算法大多基于扩张全卷积网络(dilatedFCN)，在骨干网络中采用扩张卷积来提取高分辨率的特征图，以实现高性能的分割工作。然而，由于在高分辨率特征图上进行了许多卷积操作，这种基于dilatedFCN的方法导致了较大的计算复杂性和内存消耗。为了平衡性能和效率，也存在编码器-解码器结构，通过将编码器的多级特征图进行组合，逐渐恢复空间信息。然而，现有的编码器-解码器方法的性能与基于dilatedFCN的方法相差甚远。在本文中，我们提出了EfficientFCN，其骨干是一个普通的ImageNet预训练网络。引入了一种整体引导的解码器，通过编码器的多尺度特征来获得高分辨率的语义丰富的特征图。利用编码器高低层次的特征，解码任务被转换为新型的码本生成和码字汇编任务。这样的框架实现了与现有方法相当甚至更好的性能，且计算成本仅为现有方法的1/3。在PASCAL Context、PASCAL VOC、ADE20K上进行的大量实验证实了所提出的EfficientFCN的有效性。

论文链接：

论文13：Self6D：自监督单目6D物体姿势估计

报告人：王谷（清华大学博士生）

摘要： 6D物体姿态估计是计算机视觉中的一个基本问题。卷积神经网络（CNNs）最近被证明即便是从单目图像，也能够预测出可靠的6D姿势估计。然而，CNNs被认为是非常数据驱动的，而且获取足够的注释往往是非常耗时耗力的。为了克服这一缺点，我们提出了通过自我监督学习的方式进行单目6D姿势估计的想法，消除了对真实注释的需求。在用合成RGB数据对我们提出的网络进行完全监督训练之后，我们利用最近在神经渲染方面取得的进展，在未注释的真实RGB-D数据上进一步对模型进行自我监督，以寻求视觉和几何上的最佳排列。广泛的评估表明，我们提出的自我监督能够显著增强模型的原始性能，优于所有其他依赖合成数据或采用域适应领域复杂技术的方法。

论文14：CysAs: 学习可重新识别描述的自我监督关联周期

报告人：王重道（清华大学博士生）

摘要：本文提出了一种针对人员重识别（re-ID）问题的自监督学习方法，现有的无监督方法通常依赖于伪标签，例如来自视频轨迹或视频聚类的伪标签。使用伪标签的一个潜在缺点是，错误可能会累积，对于估计伪ID的数量形成挑战。我们引入了一种不同的无监督方法，允许我们不用求助于伪标签，从原始视频中学习行人嵌入。我们的目标是构建一个匹配人员重识别对象的自监督前置任务。受多对象跟踪中数据关联概念的启发，我们提出了关联周期任务（CycAs）：在一对视频帧向前和向后之间执行数据关联后，一个行人实例应该与自己关联。为了完成这个目标，模型必须学习一个有意义的表示，能够很好地描述帧对实例之间的对应关系。我们将离散关联过程调整为可区分的形式，使得端到端训练可行。实验从两个方面进行：首先，我们在七个基准上将我们的方法与现有的无监督重识别方法进行比较，证明了CycAs的优越性。然后，为了进一步验证CycAs在实际应用中的实用价值，我们对自采集的视频进行了训练，并报告了在标准测试集上的良好表现。

论文15：带增强锚点的标签传播：一种用于无监督域适应的简单半监督学习基线

报告人：张亚斌（华南理工大学硕士生）

摘要：受无监督域适应（UDA）和半监督学习（SSL）之间的问题关联性的驱动，许多最先进的UDA方法采用SSL原理（如聚类假设）作为其学习成分。然而，它们往往忽略了UDA的域迁移性质。在这项工作中，我们进一步地研究SSL技术在UDA问题上的适当拓展。为了更好地实现将真标签传播到无标签实例中，以标签传播(LP)算法为例，我们分析了在UDA中采用LP的挑战，并从理论上分析了亲和图/矩阵构建的条件。我们的分析提出了一种新的带增强锚点的标签传播 (A2LP)算法，它可以通过生成具有高置信度标签预测的无标签虚拟实例(即增强锚点)来潜在地改善LP。为了使所提出的A2LP对UDA有用，我们提出了生成这种虚拟实例的经验性方案。所提出的方案还通过交替使用A2LP的伪标签和域不变特征学习来应对UDA的域迁移挑战。实验表明，这样一个简单的SSL拓展相比具有代表性的UDA方法的域不变特征学习有所改进，并且可以在基准UDA数据集上赋予两个最先进的方法。我们的结果表明，SSL技术在UDA问题上具有进一步研究的价值。

论文16：用于开放集半监督学习的多任务课程框架

报告人：郁青（东京大学博士生）

摘要：当只有有限的标记数据时，为了利用未标记的数据来训练强大的模型，半监督学习(SSL)已经被提出来。虽然现有的SSL方法假设标签数据和无标签数据中的样本共享其样本的类，但我们解决了一个更复杂的新型场景，命名为开放集SSL，其中无标签数据中包含了分布外（OOD）样本。我们没有分别训练OOD检测器和SSL，而是提出了一个多任务课程学习框架。首先，为了检测未标记数据中的OOD样本，我们估计样本属于OOD的概率。我们采用联合优化框架，交替更新网络参数和OOD得分。同时，为了实现对分布内（ID）数据的高性能分类，我们在无标签数据中选取OOD分数较小的ID样本，并将这些数据与标签数据一起用于训练深度神经网络，以半监督的方式对ID样本进行分类。我们进行了多次实验，我们的方法成功消除了OOD样本的影响，达到了最先进的结果。

04 往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货，特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验，目前已成功举办66期线上分享。

资源下载：

下载地址： http://yemao.in/life?utm_source=sishubiji&utm_term=Jishi live | csig-eccv2020论文预交换在线研讨会即将到来！