公司新闻

新闻中心

汇集全面、前沿、深度的小视科技官网资讯与媒体聚焦报道

小视获奖 ACCV 2022 国际细粒度图像分析挑战赛 | 细粒度图像分类如何让机器看得更清?

公司新闻 2023-02-02 4418 阅读


近日,ACCV 2022国际细粒度图像分析挑战赛最终成绩公布,小视科技参加了网络监督的细粒度识别赛道,在133支参赛队伍中脱颖而出,夺得第4名。


1675320584861983.jpg


ACCV 2022 细粒度图像分析挑战赛是由南京理工大学和澳大利亚University of Wollongong等主办的国际性赛事。本赛事涉及的细粒度图像分析,其目标是对包含5000个子类别共80多万张网络图像进行细粒度级别的图像定位、识别及检索,在真实场景下有着广泛的应用价值。

AI生产落地过程中,我们同样面临细粒度化场景的算法任务,如何提升算法精度也是一个值得持续探索的课题。

小视获奖方案让我们找到了新灵感,不仅深化了我们对细粒度识别的理解,也有望加深产研结合,推进算法落地。


一、技术方案


主办方提供的数据中存在大量无关噪声数据,如图表、文本和地图,这无疑对训练结果产生影响。我们通过引入特征提取机制,建立噪声图像特征库进行特征匹配,筛选出近5万张噪声数据,提升训练集的纯净度。

1675320678207478.png

筛选出的噪声样本


针对数据集中目标尺度变化差异大的问题,我们选取SwinTransFormer作为主干网络,利用多头注意力和移动窗口掩码机制,显著地提取目标特征,同时均衡训练速度和精度。


1675320753254936.jpg


训练过程采用多种数据预处理方式,包括Resize、Flip、Mixup、Cutmix、AutoAugment、RandomErase,增加模型的泛化性。

我们加入了Sub-CenterArcface损失函数进行辅助监督Fintune模型,类内区分多个类别中心,降低噪声样本对算法的影响,促进模型进一步收敛;引入动态的Margin,对数据量少的类别给予更多的关注,降低长尾效应的影响。在训练后期我们发现辅助监督头的精度超过了主头的精度。


1675320811268515.png


我们改进了数据采样器,使用Re-Balancing Sampler增加了数据量少类别的学习,通过差异化的训练模型,增强模型之间的互补性。

通过给测试集打上伪标签训练,进行动态化均衡处理,我们保证了预测类别的公平性。在此基础上进行自蒸馏,以进一步提高精度。


1675321183197251.jpg


在测试阶段,我们使用了FiveCrops和 HorizontalFlip的TTA测试方法,单模型的精度提升明显。最终使用两个SwinTransFormer模型融合,提交比赛结果。


二、方案对比:小视方案 & 冠军方案


1675321331765108.png


我们与冠军方案均选择了动态Margin和知识蒸馏的技术路线,融合模型数量分别为2个与17个。

在参数量是冠军模型的0.0395倍、计算量为0.04倍的情况下,我们之间的精度差距为2.87%。


微信截图_20230113151721-1.png


同时,我们与第二、第三名之间的差距在0.33%以内。这显示出,我们的模型在效率上的优势,可更好地实现生产任务的转化。、


三、生产运用


本次比赛丰富了我们在细粒度分类场景下的技术储备,有助于提升细粒度化算法的精度,推进视频结构化在校园、工地、工厂等真实场景的落地,如学生奔跑打架识别、加油站抽烟打电话预警、工厂中睡岗行为告警等。