2023年大会共收到投稿9155件,录用论文2359篇(录用率25.8%)。这个数字每年都在继续增长。
今年会议上的大多数论文来自多视图和传感器的3D(隐式表示,大量NERF),图像和视频生成(主要是扩散模型),面部/身体/姿势估计,持续学习,多模态(视觉+语言),高效建模等主题。
根据CVPR 2023上提供的论文,我们可以看到计算机视觉研究的几个趋势。
神经符号方法:论文“可视化编程:无需训练的合成视觉推理”介绍了一种称为VISPROG的神经符号方法,该方法利用大型语言模型生成类似python的模块化程序来解决复杂的视觉任务。这一趋势表明,人们正在探索将神经网络与符号推理相结合,以增强视觉推理能力。数据驱动方法:论文“事件摄像机的数据驱动特征跟踪”介绍了一种事件摄像机的数据驱动特征跟踪方法,该方法利用低延迟事件并将知识从合成数据转移到真实数据。这种趋势侧重于利用大量数据并从中学习,以提高性能和泛化。高效生成模型:两篇论文,“关于引导扩散模型的蒸馏”和“MobileNeRF:利用多边形光栅化管道在移动架构上进行高效的神经场渲染”,讨论了图像生成模型的效率。他们提出了蒸馏方法和替代表示法,以加快取样过程并使这些模型更加实用和易于访问。上下文感知渲染和合成:论文“DreamBooth:微调文本到图像扩散模型以进行主题驱动生成”和“DynIBaR:基于图像的神经动态渲染”分别侧重于增强文本提示的图像合成和从视频生成新颖的视图。这些论文强调了在图像合成和渲染任务中考虑上下文信息和动态场景理解的重要性。整体框架:论文“面向规划的自动驾驶”介绍了统一自动驾驶(UniAD)的概念,这是一个将感知、预测和规划任务集成到单个网络中的综合框架。这一趋势强调开发统一的框架,以优化最终目标,实现自动驾驶不同任务之间的更好协调和性能。数据集和基准:论文“OmniObject3D:用于逼真感知、重建和生成的大词汇量3D 对象数据集”和“最大集团的3D 配准”侧重于创建用于3D 对象理解和点云配准的大型数据集和基准。这些努力旨在为推进逼真的3D视觉研究和改进算法的性能评估提供资源。
要点:
神经符号方法有望扩展人工智能系统在复杂视觉任务中的能力。数据驱动的方法和迁移学习在提高性能和泛化方面发挥着重要作用。效率和实用性是图像生成和渲染模型中的重要考虑因素。上下文信息和动态场景理解可提高图像合成和渲染的质量。集成多个任务的整体框架可以提高性能和协调性。数据集和基准对于推进研究和评估计算机视觉中的算法性能至关重要。