国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。
每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。
AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是3D主题论文,共67篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!
1.NeuFace: Realistic 3D Neural Face Rendering from Multi-view Images
作者:Mingwu Zheng,Haiyu Zhang,Hongyu Yang,Di Huang
链接:https://www.aminer.cn/pub/6421094d90e50fcafdb030fc/
AI综述(大模型驱动):本文提出了一种新的3D面部显示模型 NeuFace,它自然地将神经描绘技术融入到身体上,捕捉复杂的面部几何和外观线索。通过一个近似的BRDF整合和一个简单的但新的低排名先验,有效地降低歧义并提高面部BRDF的性能。实验证明了 NeuFace在人类面部描绘中的优异性,同时具有较差的通用对象推广能力。
2.RaBit: Parametric Modeling of 3D Biped Cartoon Characters with a Topological-consistent Dataset
作者:Zhongjin Luo,Shengcai Cai,Jinguo Dong,Ruibo Ming,Liangdong Qiu,Xiaohang Zhan,Xiaoguang Han
链接:https://www.aminer.cn/pub/641bc39190e50fcafdc14ffc/
AI综述(大模型驱动):我们描述了三维建模数据集3D立方体。它包含1500个具有高度一致性的高品质3D结构化模型。该数据集由专业艺术家手工制作的。与之前的工作相比,这项工作侧重于改进现实人类数字化的领域。然而,前两项工作的大部分都专注于建模3D立方体。在本文中,我们介绍了3Dbicar,这是第一批大规模3D立方体数据库。
3.VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
作者:Yiming Li,Zhiding Yu,Christopher Choy,Chaowei Xiao,Jose M. Alvarez,Sanja Fidler,Chen Feng,Anima Anandkumar
链接:https://www.aminer.cn/pub/63f82b2e90e50fcafd05a7d2/
AI综述(大模型驱动): 我们提出了一种基于转折的语义场景完成框架沃克斯前后。我们的框架采用了两个阶段的设计,从浅层估计开始,然后从紧缩的3D向量化中生成细粒度立方体。这使得在2D图像中看到的视觉特征只与显著的场景结构对应,而不是空洞或封闭的空间。因此,首先从观察到的弱点开始,通过隐藏解析传播信息,更可靠地启动维克斯前后算法。实验表明,该算法优于最先进的基线,并减少了Gigabyte内存。
4.ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding
作者:Le Xue,Mingfei Gao,Chen Xing,Roberto Martín-Martín,Jiajun Wu,Caiming Xiong,Ran Xu,Juan Carlos Niebles,Silvio Savarese
链接:https://www.aminer.cn/pub/6397ed4390e50fcafdf42bcd/
AI综述(大模型驱动):该论文介绍了ulip,一个学习三维图像、文本和三维点球的工具。ulip利用先前训练的视觉语言模型在shapenet55中学习三维图像、文本和三维点球,从而提高了其在标准3D分类和零射击3D分类上的表现。ulip还在新模型Net40和ScanObjectNN上的零射击3D分类方面表现出优异的性能。
5.Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis
作者:Renrui Zhang,Liuhui Wang,Yali Wang,Peng Gao,Hongsheng Li,Jianbo Shi
链接:https://www.aminer.cn/pub/641137ff90e50fcafd17bff9/
AI综述(大模型驱动):我们提出了一种无监督的非参数模型,即点N。它由纯粹不学习到的成分组成:离子标注、最靠近邻居(k NN)和集成操作。令人惊讶的是,它在各种3D任务上表现得很好,不需要任何参数或训练,甚至超过了现有的全自动模型。从这个基本非参数模型开始,我们提出了两次扩展。首先,点N可以作为建模参数网络的基础架构。基于这种基础的非参数模型,提取的点N具有高性能效率竞争比。
6.ConQueR: Query Contrast Voxel-DETR for 3D Object Detection
作者:Benjin Zhu,Zhe Wang,Shaoshuai Shi,Hang Xu,Lanqing Hong,Hongsheng Li
链接:https://www.aminer.cn/pub/639a906390e50fcafdefe6ad/
AI综述(大模型驱动):我们提出了一种简单但有效的高效的紧凑三维探测器。该探测器被称为查询相似性矩阵(Con QueR)。它避免了挑战性的假阳性,并实现了更精确和更简洁的预测。我们观察到大多数假阳性非常局部地存在着高度交叉。因此,我们提出了一个用于明确增强所有不匹配的查询对的机制。
7.Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection
作者:Bo Zhang,Jiakang Yuan,Botian Shi,Tao Chen,Yikang Li,Yu Qiao
链接:https://www.aminer.cn/pub/640fe64790e50fcafd9e278c/
AI综述(大模型驱动):在本文中,我们研究了从多个数据集训练统一的三维探测器任务。我们观察到,这似乎是一个挑战的任务,主要是由于这些数据集存在巨大的数据水平差异和分类体系结构级别的变化。受这种现象的影响,我们提出了一种Uni3D方法,该方法利用了一个简单的数据级纠正操作和一个设计的语义层次分解和重组模块来消除难以预见的数据水平和分类体系结构级别差异。我们的方法是简单而易于组合的,与许多三维物体检测基线如Voxter和Voxter RCNN等广泛使用的3D物体检测基线相结合,允许他们有效地从多达几百个剩余的标记数据上学习,以获得更具区分性和一般化特征的表示。
8.Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild
作者:Garrick Brazil,Abhinav Kumar,Julian Straub,Nikhila Ravi,Justin Johnson,Georgia Gkioxari
链接:https://www.aminer.cn/pub/62da159e5aee126c0f5dbbad/
AI综述(大模型驱动):本文提出了一种名为Cubic RCNN的模型,用于从单个图像中识别三维场景和物体。该模型通过整合现有数据集进行推广,生成了23万张包含超过300万个案例和98个类别的图像。实验结果表明,该模型可以提高单个数据集的性能,并可以通过预训练加速学习新的小数据集。
9.MonoATT: Online Monocular 3D Object Detection with Adaptive Token Transformer
作者:Yunsong Zhou,Hongzi Zhu,Quan Liu,Shan Chang,Minyi Guo
链接:https://www.aminer.cn/pub/641d14e090e50fcafdf73c35/
AI综述(大模型驱动):本文提出了一个名为”mono3D框架”,它利用一种新颖的视觉转换器和各种不同形状和大小的异构标记进行移动mono3D。该框架旨在自适应地分配细粒度标记到更重要区域之前,使用Transformer来提高mono3D。为了实现这一点,我们首先使用先验知识设计了一个评分网络,用于选择图像中最重要的区域,然后提出了一个标记聚类和融合网络,并使用SOTA mono3D探测器作为底层检测中心。
10.MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection
作者:Yang Jiao,Zequn Jie,Shaoxiang Chen,Jingjing Chen,Lin Ma,Yu-Gang Jiang
链接:https://www.aminer.cn/pub/63195d8990e50fcafde7e6e9/
AI综述(大模型驱动):我们提出了一种新的基于跨向量机和照相机的三维图像融合框架。该框架由两个重要组成部分组成:首先,使用深度无监督投影方法提高了移动的层次质量;第二个,将包含在每个交互级别中细粒度的特征集成到合并空间中以增强移动的层次质量,然后将其组合成一个统一的空间,形成一个多向体框架。我们的系统在基线上实现了71%的最大感知分辨率和74.0%的阿莫塔跟踪结果,这是一种迄今为止最好的三维图像检测结果。
想查看全部3D论文,可以点击下方链接: