首页 > 综合新闻 > 正文

电信学院本科生论文获计算机视觉领域顶级会议收录

Author:Time:2025-02-28Hits:

近日,电信院2021级本科生李永康为第一作者的论文《Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation》被计算机视觉领域国际顶级会议CVPR 2025主会接收。CVPRIEEE/CVF Conference on Computer Vision and Pattern Recognition)是人工智能领域中聚焦计算机视觉与模式识别方向的国际顶级会议,具有极高的学术影响力和权威性,是中国计算机学会CCF-A划定的国际A类会议。2025CVPR收到了11532篇有效投稿,只接收了2719篇,录用率为23.6%

该论文聚焦于开放场景中的图像分割。图像分割是计算机视觉中一项重要任务,广泛应用于自动驾驶、机器人等领域中,而开放词汇分割相比于图像分割,能够分割出图像中的任意类别,更符合人的真实感官,对现实场景的应用更加广泛。

当前开放词汇分割主要采用先分割出掩码再对掩码进行分类的范式,由于模型需要根据输入的文本类别进行区域的识别,这要求模型既能够保持多模态模型的原有泛化性又要有细粒度的感知能力,但受限于文本和掩码两种模态之间巨大的隔阂,当前开放词汇分割模型在掩码分类上的精度不高,限制了模型的效果。

针对这一问题,李永康提出一种Mask-Adapter的方法,从掩码中提取语义激活图再与图像特征进行聚合得到掩码区域特征,相比于掩码聚合的方式,提供更加丰富的上下文信息,同时能够保持和原本CLIP的特征对齐,保持模型原有的泛化性,还提出了掩码一致性损失和基于交并比的Matcher,提升模型的鲁棒性。Mask-Adapter可以以即插即用的方式插入到现有的开放词汇分割模型中,提升模型对掩码的分类准确率,在多个开放词汇分割数据集上取得了SOTA的效果,还可以结合SAM-2Mask2Former等模型,帮助原本闭集的模型进行开放词汇分割。

李永康在电信学院学习期间积极参与科创团队和竞赛,打下了扎实的技术基础。在Dian团队期间,在黑晓军副教授和张成伟讲师的指导下参与多项校企合作项目,获得华为ICT大赛全球特等奖、昇腾优秀开发者——最佳贡献奖等荣誉。本篇论文完成于他在在电信学院Vision Lab学习期间,论文得到了刘文予教授、王兴刚教授、冯镔教授以及程天恒博士的共同指导。



Paper: https://arxiv.org/abs/2412.04533

Code: https://github.com/hustvl/MaskAdapter

Demo: https://huggingface.co/spaces/wondervictor/Mask-Adapter


湖北省武汉市洪山区珞喻路1037号东十七楼  电话:027-87792776  领导邮箱:husteic@hust.edu.cn

华中科技大学 电子信息与通信学院