2020年8月23-28日,第16届欧洲计算机视觉会议(16th Europran Conference on Computer Vision,ECCV)采用线上形式成功举行。澳门太阳研究生有4篇论文在大会正会发表,同时获得2项竞赛亚军。
博士研究生刘良在导师曹治国教授指导下,与澳大利亚阿德莱德大学的沈春华教授、陆昊博士后合作,发表了论文“Weighing Counts: Sequential Crowd Counting by Reinforcement Learning”。该论文的研究工作得到国家自然科学基金的资助,将传统的一步预测的人群计数范式,转化为多步的时序决策问题,并采用深度强化学习方式实现。该方法受天平称重的启发,在预测过程中,每一步选择不同的数值增加动作,直到网络判断累计的数值和输入图像中的人群数目相等为止。通过这样的范式变换,复杂的一步预测问题被拆解为多个较为简单的子问题,从而更加易于预测。文章提出的方法不仅在多个人群计数公共数据集上表现优异,并且拥有较好的泛化性能。同时文章还验证了提出的方法可以作为现有方法的插件进行工作。
硕士研究生熊昕、熊海朋等同学在曹治国教授的指导下,与美国西弗吉尼亚大学李欣教授(IEEE Fellow)合作,发表了论文“parse-to-Dense Depth Completion Revisited: Sampling Strategy and Graph Construction”。论文重点研究了目前深度填充及相关任务中两个尚未被研究的区域,首次分析了稀疏采样策略对深度填充任务的影响并提出使用图卷积模型进一步提升性能。一方面,该文指出,在同样数量的采样点情况下,使用基于低一致性序列的伪随机采样策略会得到比纯随机采样策略更好的性能,给出了理论证明并首次提出一种观测指标来衡量深度填充任务中采样策略的优劣,在与真实激光雷达数据互相进行跨数据集验证的过程中,也证实了前者具备更优秀的泛化能力。另一方面,针对同物体表面深度分布均匀且平滑,而在边缘处变化剧烈的特点,论文首次在深度填充任务中引入图卷积模型,利用得到的图和特征对图卷积模块及baseline模型进行混合训练得到最终结果。论文提出的模型在室内深度填充数据集上达到当前最好效果,且具备更强的泛化能力。
博士研究生余昌黔在桑农教授、高常鑫副教授和澳大利亚阿德莱德大学的沈春华教授的指导下,在大会发表了“Representative Graph Neural Network”论文。该论文的研究工作在国家自然科学基金重点项目及面上项目的资助下,针对上下文关系建模问题,提出了一种代表性图网络用于提取代表性点的特征信息,进而高效地建模上下文关系。当前长距离上下文关系主要基于非局部算子建模。然而非局部算子需计算特征图上所有点对之间的关系,复杂度较高。通过统计分析,本研究发现非局部算子中存在大量冗余计算。因此本研究提出了代表性图网络,通过学习代表性点的位置提取代表性点的特征,大大减少冗余计算,从而高效地表征上下文关系。实验结果表明,该方法在语义分割、实例分割、目标检测等任务上性能均超越了非局部算子,同时也超越了当前其他先进算法。
硕士研究生赵世震在高常鑫副教授和桑农教授的指导下,与中山大学郑伟诗教授和腾讯优图实验室孙星研究员合作,在大会发表了“ Do Not Disturb Me: Person Re-identification Under the Interference of Other Pedestrians”论文。该论文的研究工作在科技部重点研发项目和国家自然科学基金面上项目的资助下,针对行人重识别问题提出了一种可以抑制行人干扰问题的深层神经网络。传统的行人重识别假设裁剪的图像只包含单人。然而,在拥挤的场景中,现成的检测器可能会生成多人的边界框,并且其中背景行人占很大比例,或者存在人体遮挡。从这些带有行人干扰的图像中提取的特征可能包含干扰信息,这将导致错误的检索结果。为了解决这一问题,该论文方法首先利用查询图片引导的注意力模块来增强图片中目标的特征。此外,我们提出了反向注意模块和多人分离损失函数促进了注意力模块来抑制其他行人的干扰。该方法在两个行人干扰数据集上进行了评估,结果表明,该方法与现有的Re-ID方法相比具有更好的性能。
硕士研究生宾言锐、陈新雅在桑农教授、高常鑫副教授和腾讯优图曹煊博士的指导下,在大会发表论文“Adversarial Semantic Data Augmentation for Human Pose Estimation”。该论文的研究工作在国家自然科学基金面上项目的资助下,针对2D人体姿态估计问题,提出了一种对抗语义数据增强方法来提升模型在严重遮挡和旁人干扰等困难场景下的性能。以往的方法主要是利用尺度和旋转等全局图像变换来进行训练数据增强,然而这类常规的数据增强方法对上述困难场景下的模型性能提升有限。因此本文通过把人体分成多个有语义的部件,并对这些人体部件在不同的粒度上进行组合,并利用一个空间变换网络作为生成器将各种粒度的部件合适的放置到图像上,来合成困难场景下的样本。姿态估计网络作为判别器,从生成的样本中学习在困难场景下预测。两者以对抗的方式训练。实验结果表明,该方法在多个常用人体姿态估计数据集上性能超越其他方法,达到目前的最佳性能。
本次大会进行的“鲁棒视觉挑战赛(Robust Vision Challenge 2020)”, 是继2018年CVPR “鲁棒视觉挑战赛”后,全球第二次组织此专题竞赛。本次竞赛结果于8月28日揭晓,博士研究生鲜可与硕士研究生邹红威、熊昕组队,在导师曹治国教授指导下,获得“单目深度预测”赛道亚军,鲜可应邀在大会“Robust Vision Challenge 2020 Workshop”上报告参赛方法。该项赛事要求参赛者提供的单一模型能够在四个不同场景的数据库上针对输入的单张图像预测出图像中每个像素的绝对深度,以预测精度等多项指标衡量性能。在多个数据集混合训练过程中,不同数据集的深度感知范围差异较大,为了提升模型的特征表达能力,该项工作在编码器末段引入了一个新的特征嵌入层以及在解码器中引入局部平面引导层。在有效的提交方案中,该模型在四个数据集上的综合表现排名第二。2018年鲜可、硕士生李睿博(现在南洋理工大学攻读博士学位)在导师曹治国教授指导下也曾夺得该项赛事“单目深度预测”赛道第二名。
澳门太阳2020届本科生彭珏文、骆贤瑞、吴子晋(现均为澳门太阳2020级博士生、硕士生)在其导师曹治国教授和博士生鲜可的共同指导下,参加了大会组织的“Advances in Image Manipulation”挑战赛,夺得“渲染逼真焦外散景图像(Rendering Realistic Bokeh)”赛道亚军,骆贤瑞应邀在大会“Advances in Image Manipulation Workshop”上发表“Bokeh Rendering From Defocus Estimation”论文。该项赛事要求参赛者研究的算法能够针对提供的单张全聚焦图像,检测出主体,并对背景进行渲染达到单反相机大光圈拍摄时产生的焦外散景效果,赛事的难度在于复杂场景中如何精确地保留聚焦对象边界局部细节的同时,对背景获得近似相机产生的散焦效果。
ECCV每两年举行一次,与CVPR、ICCV并称为计算机视觉领域的三大顶会。在2020年发布的谷歌学术影响力排名中,ECCV继CVPR、ICLR、NIPS、ICCV、ICML之后排名全球计算机学科(期刊与会议均参与排序)的第6位,大会投稿论文采取双盲方式评审,录用难度极大,录用的论文反映了计算机视觉领域的世界最新研究成果。