计算机科学与技术系在国际顶级会议CVPR2024、ICRA2024发表多篇论文
近日,人工智能领域国际顶级会议“国际计算机视觉与模式识别会议”IEEE Conference on Computer Vision and Pattern Recognition (CVPR)以及机器人领域国际顶级会议“电气和电子工程师学会机器人与自动化国际会议”IEEE International Conference on Robotics and Automation (ICRA) 公布了2024年论文录用结果。计算机科学与技术系邓勇舰、杨震团队,马伟团队,刘波团队四篇论文分别被ICRA 2024和CVPR 2024录用,第一作者分别为我院学生刘宇涵、姚博文、李帅伯,和青年教师袁彤彤。
论文《Video Frame Interpolation via Direct Synthesis with the Event-based Reference》被CVPR 2024录取,展示了团队在基于事件相机的视频插帧领域的最新研究成果。由于高时间分辨率的优势,事件摄像机可以弥合连续视频帧之间存在的信息空白。大多数最先进的基于事件的视频插帧(Event-based Video Frame Interpolation, E-VFI)方法遵循传统的视频插帧范式,即估计连续帧之间的运动,然后通过扭曲和细化过程生成中间帧。但是这种方法对关键帧的质量和一致性具有高要求,使得它在极端的真实世界场景(如丢失移动对象和严重的遮挡)中容易受到挑战。针对此问题,团队提出了一种新的E-VFI框架,利用基于事件的参考直接合成中间帧,避免了显式运动估计的必要性,大大增强了处理运动遮挡的能力。
论文《SAM-Event-Adapter: Adapting Segment Anything Model for Event-RGB Semantic Segmentation》被ICRA 2024录取,展示了团队在多模态语义分割领域的最新研究成果。针对以往分割模型在复杂照明条件和高速运动场景下泛化能力差的问题,团队构建了一种基于大模型SAM的语义分割模型。该模型具有可训练参数少、精度高以及对运动场景和光照不良场景适应性强的特点。这种创新的模型在工程领域具有巨大的应用前景,可应用于汽车自动驾驶、无人机巡航等需要在复杂环境下工作的系统。通过使用该模型,这些系统可以更好地应对复杂照明条件和高速运动场景带来的挑战,从而提高其性能和可靠性。
论文《UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization》被CVPR 2024录取,展示了数字图像篡改检测领域的最新研究成果。针对以往检测模型通用性不足和对篡改区域定位不准确的问题,团队设计了一种边缘敏感的特征交互编码网络BSFI-Net,以高效提取不同特征域的篡改痕迹。基于该编码网络,团队提出了一种新颖的多尺度监督Transformer联合学习框架UnionFormer。这一创新框架构建了目标层次的表征来捕捉图像真伪目标间的不一致性,并将其与RGB和Noise视角表征聚合以实现伪造图像识别。该框架能够检测多种类型的图像篡改,并精确定位篡改区域,在多个测试标准上取得优越的性能。此外,对于AI生成图像,该框架也具备较好的检测能力。
论文《Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges》被CVPR2024录取,展示了团队在多模态监控视频领域的最新研究成果。智能安防监控领域已经呈现出多模态方向的发展趋势,尤其是在视频和文本交互方面,比如自动监控视频分析应用、警务事件报告生成等应用场景。然而,现有的监控数据集缺乏语句级别的注释,这妨碍了对监督多模态监控视频的研究,并导致现有模型对监控视频的语义内容的理解不够理想。为了解决这一问题,我们在 UCF-Crime(最大的真实世界的监控数据集)基础上构建了第一个多模态监控数据集。并且在此数据集上,我们进行了四种多模态视频文本任务的实验,包含17种baselines,深入分析了现有的一系列模型的不足,提出了当前在多模态监控视频领域存在的最新挑战及应对建议。
CVPR是全球人工智能和计算机视觉领域顶级国际会议,在Google Scholar列出的全球最有影响力的会议/期刊中均位列第四。ICRA是世界范围内机器人学和自动化领域的顶级国际会议,在Google Scholar机器人分类下排名所有会议/期刊第一名。