近日,创新奇智团队在CVPR 2023细粒度视觉分类(FGVC)赛事中再次夺冠,在SnakeCLEF赛道经过激烈角逐荣获冠军。这是继PlantTraits挑战赛夺冠后,短期内第二次在顶级计算机视觉挑战赛中登顶,展现了强大技术实力。
CVPR(IEEE国际计算机视觉与模式识别会议)是全球顶级计算机视觉会议,其中FGVC(Fine-Grained Visual Categorization)是CVPR主办的细粒度视觉分类workshop竞赛。本届CVPR-FGVC10研讨会由丹麦哥本哈根大学、美国加州理工学院、英国爱丁堡大学、美国麻省理工学院、英国伦敦大学学院、捷克共和国皮尔森西波西米亚大学、北京大学、Meta(Facebook)、Google等知名高校及机构联合主办。
图像分类在计算机视觉领域占据着重要地位,是最基础和应用最广泛的任务之一,特别是细粒度分类,要求在区分出基本类别的基础上,进行更精细的子类划分,如区分植物的种类、车的款式、狗的品种等。但在训练样本数据有限且类别高度相似的领域中,现有技术的表现并不尽如人意。当前,细粒度图像分类成为计算机视觉领域的一个热门研究课题,在工业界和实际生活中有着广泛的业务需求和应用场景。
SnakeCLEF2023挑战赛及赛题介绍
SnakeCLEF2023隶属于CVPR 2023 FGVC细粒度挑战赛的分支,是国际人工智能和计算机视觉领域的旗舰学术赛事,由捷克西波西米亚大学(University of West Bohemia, Czechia)主办。
SnakeCLEF2023旨在推进从图像和元数据中识别蛇种的鲁棒算法的开发。这一目标在生物多样性保护领域具有深远意义,也是保护人类生存健康的重要方面。赛事要求从给定的真实蛇种观察数据集(对单一个体有多张照片和相应的元数据)中训练一个分类模型,对蛇的种类进行预测,且模型大小限制为最大1GB。主办方使用参赛队伍提交的模型和推理代码在私有数据上进行推理,以确保结果的可复现性,最终根据推理出的结果计算识别得分并计算排名。得分由分类准确率Acc、F1和有毒物种识别得分共同组成。
比赛难点
通过对赛题和数据的分析,本次任务主要存在以下难点:1)细粒度图像识别:识别蛇种类的困难在于外观上类内部的高差异性以及类与类之间的低差异性,这取决于地理位置、颜色变化、性别或年龄。同时,许多物种在视觉上与其他物种相似(例如拟态);2)长尾分布:训练集表现出显著的长尾分布问题,样本主要集中在少数类别上,部分类别样本数较少;3)元数据的使用:如何利用主办方提供的元数据提升模型的分类能力;4)识别有毒物种的鲁棒性:正确地识别出有毒物种,并尽量避免将有毒物种识别为无毒物种;5)模型大小最大限制为1GB。
算法技术方案
为了解决上述问题,创新奇智团队选取timm开源模型库中的ConvNeXtV2模型作为骨干网络,提取图像的深层特征并与浅层特征进行融合。为了最大程度地利用训练数据,团队将图像分辨率调整为512x512,并对图像进行更鲁棒的数据增强,如随机裁剪、随机翻转、对比度和饱和度增强以及CutMix等。针对数据集的长尾分布问题,使用长尾实例分割中的Seesaw损失,减轻对尾部类别的压倒性惩罚,并补偿因惩罚减少而导致的错误分类风险。
此外,团队利用元数据中的国家地区代码构造文本提示词,输入到CLIP文本编码器中获取文本特征,与图像特征进行融合,并且团队设计了一个轻量的先验模型,计算样本使用文本特征进行分类的先验概率,在后处理阶段与骨干模型一起计算联合概率以提高模型的鲁棒性。通过这种方式,元数据可以提供图像中所缺乏的可靠地理位置信息,使模型如同人类专家一样综合多方面的信息之后进行判断。
在后处理阶段,团队专门针对有毒物种的识别进行鲁棒性处理。对于模型针对某一样本计算出其在类别上的概率分布,在分类过程中,一般采用概率最大值对应的类别作为预测类别。这是不够鲁棒的,因为当模型对某一样本预测的置信度较低时,其概率最大值也同样较低。因此,对某一样本,当其预测类别的置信度较低时,我们对其概率分布进行降序排序,如果其中前五个概率对应的类别存在有毒物种时,则认为这个样本是有毒物种。通过这种方式,可以尽可能地防止有毒物种的误判,也更符合人的直觉。
成果落地应用
细粒度视觉分类在制造、零售、文娱等行业应用广泛,比如识别产品的瑕疵种类、识别身边的动物/植物等。
作为参赛队伍教练,这也是创新奇智CTO张发恩在本届CVPR指导获得的第二个细粒度视觉分类挑战赛冠军,他指出:“作为一家专注于人工智能商业化落地的企业,创新奇智不仅关注学术研究和前沿技术发展趋势,也积极地将研究成果应用于实际业务场景中。未来,我们将继续发挥在细粒度视觉分类领域的优势,不断提升我们的技术实力和产品服务水平,推动前沿人工智能技术在传统制造业的应用落地。”