CVPR2023 表征学习论文合集

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是表征学习主题论文,共29篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Siamese Image Modeling for Self-Supervised Vision Representation Learning

作者:Chenxin Tao,Xizhou Zhu,Weijie Su,Gao Huang,Bin Li,Jie Zhou,Yu Qiao,Xiaogang Wang,Jifeng Dai

链接:https://www.aminer.cn/pub/62997c0b5aee126c0f77ced1/

AI综述(大模型驱动): 基于双向图像建模的萨摩亚图像建模本文提出了一种新的基于双向图像建模的萨摩亚图像建模方法。该方法利用了一个网络,其中两个视图之间的相对位置被编码以生成目标视图。通过匹配不同的图形视图与增强性的强度,可以实现语义对齐。为了解决这个问题,我们观察到,通过将不同图形视图与增强性的强度相匹配,可以获得(1)语义对齐;(2)空间敏感性可以用从隐藏在附近的表示中受益的预测。为了应对这一困境,我们提出了一种新的基于双向图像建模的方法,它使用一个网络,其中两个视图之间的相对位置被编码以生成目标视图。

2.MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

作者:Tianhong Li,Huiwen Chang,Shlok Kumar Mishra,Han Zhang,Dina Katabi,Dilip Krishnan

链接:https://www.aminer.cn/pub/6375a68190e50fcafd3e49a9/

AI综述(大模型驱动):基于模拟的特征生成器我们提出了一种模拟特征生成的编码器(MAGE),它与传统的基于图的生成模型兼容。MAGE能够在原始训练中实现生成和表示学习,而无需单独对每个任务进行训练。我们通过在模拟图的源端和输出端使用变形图的加权变换来训练特征。

3.EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

作者:Yuxin Fang,Wen Wang,Binhui Xie,Quan Sun,Ledell Wu,Xinggang Wang,Tiejun Huang,Xinlong Wang,Yue Cao

链接:https://www.aminer.cn/pub/6373036e90e50fcafd0a1ecb/

AI综述(大模型驱动):用于图像识别、视频识别、实例分割和语义分割的复杂基线模型。我们推出了EVA,这是一个仅使用公开提供数据的图像框架模型。EVA能够有效地将EVA扩展到一百万个参数,并在覆盖范围广泛的代表视角下构建新的记录。此外,我们观察到在其他模型中,误差的定义性变化导致无法获得与其他模型相似的学习性能的质量变异。

4.Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning

作者:Rui Wang,Dongdong Chen,Zuxuan Wu,Yinpeng Chen,Xiyang Dai,Mengchen Liu,Lu Yuan,Yu-Gang Jiang

链接:https://www.aminer.cn/pub/6392a77190e50fcafd8c4e61/

AI综述(大模型驱动):基于隐藏特征建模的视频学习我们提出了一种简单而有效的两个阶段隐藏特征建模框架:首先,通过恢复隐藏斑点特征来训练图像(或视频)模型,然后使用由此产生的特征作为隐藏特征建模的目标。为了选择老师模型,我们观察到学生被视频老师和图像老师教授得更好。然而,对于时间紧凑的视频任务,不同的老师会产生不同的学习模式。因此,为利用不同老师的优势,我们设计了一个空间间时隙共教方法。我们的视频转换器与原始维特大步进程相结合,在数百个视频数据集上实现了最先进的性能。

5.Mixed Autoencoder for Self-supervised Visual Representation Learning

作者:Kai Chen,Zhili Liu,Lanqing Hong,Hang Xu,Zhenguo Li,Dit-Yan Yeung

链接:https://www.aminer.cn/pub/64264f7b90e50fcafd68da11/

AI综述(大模型驱动):本文研究了基于对数线性熵的马尔可夫模型数据加权。我们首先证明了人机对齐会损害模型性能,因为相互信息(MI)。为了解决这个问题,我们提出了同等标记识别,作为预先文本任务的辅助工具,不仅可以减轻误差,而且可以提供更好的下流深层感知性能。与广泛的实验相比,我们表明,我们的提议的混合自动编码器在不同下流任务上实现了最先进的性能转换。此外,它超过了与实例分类技术的结合,而无需借助模块化训练来提高精度。这项工作是第一个从文本任务设计的角度考虑 MIM加权的工作。

6.Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning

作者:Zhuoyang Zhang,Yuhao Dong,Yunze Liu,Li Yi

链接:https://www.aminer.cn/pub/6397ed4d90e50fcafdf43c01/

AI综述(大模型驱动): 本文提出了一种名为Complete to Partial 4D Distillation的4D自监督学习方法。其核心思想是将4D自监督表示学习定义为教师学生知识提取框架,并让学生学习有用的4D表示。实验结果表明,该方法在 Indoor和外部场景中的4D点球序列理解任务上显著优于以前的方法。

7.Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning

作者:Xiaoyang Wu,Xin Wen,Xihui Liu,Hengshuang Zhao

链接:https://www.aminer.cn/pub/6421096390e50fcafdb0943a/

AI综述(大模型驱动):我们提出了一种有效的和有效的三维图像学习框架。该框架通过一组精心设计的特征对齐模板来生成优雅的视角。此外,它还允许在多个数据集上进行大规模3D训练,从而达到了迄今为止最好的结果。

8.Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos

作者:Sixun Dong,Huazhang Hu,Dongze Lian,Weixin Luo,Yicheng Qian,Shenghua Gao

链接:https://www.aminer.cn/pub/641bc38c90e50fcafdc1430b/

AI综述(大模型驱动):本文研究了弱监督的顺序视频理解问题,其中时间标记水平文本视频对齐不准确。使用转换器将视频表示提取到框架级特征中,并使用预先训练的文本编码器解码每个动作和整个视频的文本,以生成可视化的框架句子对应关系。文章提出一种多粒度损失模型,用于模拟文本与视频之间的对应关系,以及一种厚层框架句子对比损失来强制每个动作和其描述之间的匹配。实验结果表明,我们的方法在基线上表现优于基线,从而验证了该方法的有效性。

9.CrOC: Cross-View Online Clustering for Dense Visual Representation Learning

作者:Thomas Stegmüller,Tim Lebailly,Behzad Bozorgtabar,Tinne Tuytelaars,Jean-Philippe Thiran

链接:https://www.aminer.cn/pub/641d14e590e50fcafdf75e54/

AI综述(大模型驱动):本文提出了一种基于交叉视图一致性的目标和一个在线聚类机制(CrOC)的协同学习方法,以发现和分割视角的语义。在没有手工编码先验的情况下,结果表明该方法更通用,并且不需要复杂的预处理步骤。

10.Switchable Representation Learning Framework with Self-compatibility

作者:Shengsen Wu,Yan Bai,Yihang Lou,Xiongkun Linghu,Jianzhong He,Ling-Yu Duan

链接:https://www.aminer.cn/pub/62abf1365aee126c0f476221/

AI综述(大模型驱动):本文提出了一种基于自适应的映射学习框架(SFSC),该框架生成多个可匹配的子模型,通过单个训练过程生成不同的能力。子模型的优化面临梯度冲突,从而克服了这一问题。通过变量估计来动态调节子模型的顺序,以协同优化子模型。SFSC在评估数据集上取得了业界领先的性能。

想查看全部表征学习论文,可以点击下方链接:

资源下载: