近日,电信学院人工智能研究所最新研究成果“VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild”发表在人工智能领域顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影响因子为 16.389)。论文第一作者为电信学院2019级硕士研究生张一夫,导师为刘文予教授和王兴刚副教授,并联合微软亚洲研究院曾文军教授、王春雨研究员完成。
此前(2021年12月),张一夫作为第一作者在人工智能领域顶级国际期刊International Journal of Computer Vision (IJCV,影响因子为7.410)发表研究成果“FairMOT: On the Fairness of Detection and Re-Identification in Multi-Object Tracking”。IEEE TPAMI和IJCV是计算机视觉领域最被广泛认可的两本期刊。该论文在多目标跟踪领域取得了显著影响力,谷歌学术引用270余次,Github开源代码获得3.4k star。该研究成果在工业界也已经得到广泛使用,如百度智慧城市、微软无人超市等。
在IEEE TPAMI上的论文研究了多视角三维人体姿态估计和跟踪问题,是计算机视觉中最重要的任务之一,在元宇宙、虚拟现实、无人超市等场景有广泛的应用价值。该论文主要通过融合多视角视频信息解决单视角跟踪中的遮挡问题。文章提出了一个多分支网络同时估计环境中人的三维姿态和行人外观特征,该方法将多视角图像信息融合成三维体素(voxel)表征,通过体素表征学习得到人的三维姿态,避免了先前方法需要基于有噪声的二维姿态进行跨视角的匹配带来的累计误差,并同时考虑人体三维姿态坐标和外观进行遮挡感知的跟踪。本方法在多个权威多视角人体姿态估计和跟踪数据集上均取得了业内领先的结果,并已经在商超领域得到应用。
在IJCV上的论文研究了多目标跟踪问题,是计算机视觉中最重要的问题之一,在智慧城市、无人驾驶等场景有着广泛的应用价值。该论文提出了一个基于中心点特征的多目标跟踪网络,解决了先前方法的网络模型中目标检测和行人重识别两个任务的不公平问题。该方法将提取特征的锚框替换成中心点,使得拥挤场景下提取的重识别特征更具区分性;在骨干网络中加入多层特征融合减少两个任务的特征冲突;降低重识别特征维度使其更适用于多目标跟踪任务。FairMOT在全球权威的多目标跟踪挑战赛MOTChallenge上曾连续8个月保持排名第一,同时FairMOT也是一个实时的多目标跟踪方法,具有良好的使用价值。