eccv 2022:赵天成博士omlab团队斩获odinw开放域目标检测双料冠军-凯发k8娱乐官网地址

eccv 2022:赵天成博士omlab团队斩获odinw开放域目标检测双料冠军

来源: 今日头条 作者: 联汇科技 2022-10-25 0

日前,浙江大学滨江研究院om人工智能研究中心主任、联汇科技首席科学家赵天成博士团队 omlab 在国际顶会eccv 2022 odinw 挑战赛中获得 full-shot(全量数据学习)赛道与few-shot(小样本数据学习)赛道双料冠军、在 zero-shot 赛道获得第四排名的佳绩。基于全新目标检测框架 omdet 的先进性和创新价值,赵天成博士受邀发表主题报告演讲。

kv.png


logo.png


eccv(european conference on computer vision,欧洲计算机视觉国际会议)是计算机视觉方向的世界范围三大顶级会议之一。本次 odinw(object detection in the wild,开放域目标检测)挑战赛由微软主办,旨在验证大模型在不同领域数据上的能力。

第一排名.jpg

第4排名.jpg


基于 omdet 框架的先进性和相关研究的创新价值,赵天成博士受邀参与spotlight sessions,并发表《omdet: language-aware object detection with large-scale vision-language multi-dataset pre-training》报告演讲,受到广泛关注。

议程.jpg

截图.jpg


目标检测(object detection,od)是机器视觉领域任务的重要手段,广泛应用智能视频监控、工业检测、机器人视觉等场景,ai视觉技术在学术、产业等不同领域热度空前,同样创新难度也在不断加大。经典的 od 研究专注于改进检测器网络,以使用固定输出标签集(例如 coco 中的 80 个类)实现更高的准确度和更低的延迟,omlab团队提出的一种基于vlp(视觉语言预训练)的全新目标检测框架:omdet,探索一种持续学习的方法,即检测器能否从许多视觉词汇量增加的 od 数据集中逐步学习,并最终实现开放词汇检测能力。


omdet 在 coco、pascal voc、wider face和 wider pedestrian 四个 od 数据集中的实验结果表明,omdet 不仅能够从所有数据集中学习而不会出现标签冲突,而且由于其在任务之间的知识共享,它比单个数据集检测器具有更强的性能。


在此基础上,omlab 团队进行了更大规模的研究,将 omdet 扩展到非常大的词汇预训练,使用混合了 2000 万张图像和 400 万个独特文本标签的 od 数据集进行预训练,其中包括人工标注和伪标签。得到的模型在最近提出的 odinw 数据集上进行评估,该数据集涵盖了各个领域的 35 个不同的 od 任务。


实验表明,通过多数据集预训练扩大词汇量可有效提高零/少样本学习和参数效率微调。omdet 在一系列不同的下游任务上实现了最先进的性能。未来可以通过有效的任务采样策略改进 omdet,利用更多样化的多模态数据集,探索不同的语言和视觉 backbone(骨干网络),冻结特定参数或完全更新它们。


机器视觉2.0作为联汇科技的核心技术之一,在多项国际顶会竞赛中获得肯定,团队依托技术优势不断探索创新、加速能力突破,通过优化升级在预训练大模型等领域的核心能力,自研产品体系与开放平台并实现快速落地应用,更好地助力各行各业实现降本增效,推动数字技术与实体经济加速融合。


文章链接: