当前位置:首页 > 生活百科

voc数据集格式(voc数据集和coco数据集区别)

栏目:生活百科日期:2025-03-10浏览:0

近日,在国际顶级的计算机视觉竞赛 Pattern Analysis, Statistical Modeling and Computational Learning(PASCAL VOC)挑战赛目标检测 comp4 赛道上,创新奇智 (AInnovation) 研发的 AInnoDetection 目标检测算法在 20 项的评测指标中,取得 10 项指标排名第一的成绩,超越众多国内外知名人工智能企业和高校人工智能实验室,夺得大赛冠军。

PASCAL VOC 挑战赛是视觉对象的分类识别和检测的基准测试比赛。该赛事是世界最权威的三大计算机视觉挑战赛之一,数据集标注质量高、场景复杂、目标多样、检测难度大、数据量小但是场景丰富,相比

ImageNet

等更加考验人工智能算法的设计和创新能力。如今,PASCAL VOC 挑战赛和其所使用的数据集已经成为目标检测领域普遍接受的标准,一年一度的挑战赛成为了国内外团队角逐实力的赛场。今年有全球近百支专业队伍参加挑战赛。参赛团队包括 Google、Microsoft、CMU、清华大学、阿里巴巴、腾讯、搜狗、Yi+、平安科技等国内外知名图像领域的顶尖队伍。

目标检测

是图像领域三大基本任务之一。任务要求算法在给定图像中精确定位物体的位置,并标注出被定位物体的类别。因此,算法首先需要确定图像中物体位置,然后对已定位的物体进行分类。

目标检测的难点在于,图像中的目标大小、位置、姿态等不确定,同一图像中可能有多个目标。这些问题给算法准确检测目标带来了挑战。

在 Pascal VOC 的数据集中,算法识别难度更高。首先,图像中的目标分属数十个类别,包括人类、动物、交通工具、室内物体等,目标种类数量较多。其次,数据集较小,模型难以通过大量数据训练提升表现。此外,图像包含多个室内外场景,单个图像中的内容多变,目标数量和种类丰富,这对算法在多种场景下准确检测多个目标提出了更高要求。

Pascal VOC 数据集部分样本

AInnoDetection 目标检测算法

由创新奇智提出的 AInnoDetection 目标检测算法,在 20 类不同的目标检测上获得了 10 个类别的检测 MAP(准确率) 第一、总分第一的成绩。这一算法在模型架构、数据增强等方面都进行了创新和改进。

模型架构

从架构而言,AlnnoDetection 基于目标检测算法中著名的二阶段(two stage)检测法,首先由算法对目标生成候选框,然后将选定的物体进行分类。在结构上,骨干网络使用 ResneXt152 网络架构,使用它来提取多尺度特征图,而颈部网络采用一个 6 级特

特征金字塔网络

(FPN),用来生成更丰富的多尺度卷积特征金字塔。在这之后,连接两个共享子网,一个子网负责分类目标框,另一个网络负责将目标框回归到真实框,最后使用 focal-loss 作为二分类的损失。在训练中,模型采用多尺度测试融合,这样能够使网络根据不同的图像尺度来关注不同的目标框信息。

让小图片更加关注大物体,大图片更加关注小物体。

数据增强方法

考虑到数据集较小的问题,团队采用数据增强来扩充训练数据。增强方法包括填充小目标和 mixup 的方法。

填充小目标方法是在单个图像上,将目标复制多次,并添加在图像上。该方法可以增加小目标在训练中的曝光次数,使得模型更好的学习相关特征,最终使模型能够准确检测图像中的多个大小的目标。

Mixup 方法则是将多幅图像融合,使被检测多个目标重叠。该方法增加了图像中的场景类别,丰富了模型需要检测的图像种类,使得模型在图像数据变得复杂的情况下学习目标的特征。Mixup 方法使模型拥有更好的预测效果,在应对复杂场景图像时更加稳健。

为了提升目标检测的准确率,团队最后采用多模型融合的方法,输出最优的结果。

模型表现

从赛事主办方发布的排名显示,在 comp4 赛道比赛中,AlnnoDetection 算法在 20 项评测指标中取得 10 项指标第一、总分第一的成绩,超越了多家研究机构和知名 AI 企业。

图片来源:Pascal VOC 官网
http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&&compid=4

目前,此次夺冠的目标检测算法在创新奇智的商品检测、工业视觉缺陷检测、渠道陈列监控等产品中已经使用。

参赛团队

创新奇智 CTO 张发恩

参与本次 Pascal VOC 竞赛的创新奇智团队由张发恩、吴佳洪、杨志铮、曹浩天、宋剑飞和范馨予组成。Leader 张发恩现任创新奇智 CTO、创新工场人工智能工程院首席架构师和宁波诺丁汉大学荣誉教授,曾任职 Microsoft、Google 和百度,持有多项国内外人工智能算法专利和发表过数篇人工智能顶级会议论文。

关于创新奇智

创新奇智是创新工场的 AI 子公司,以「人工智能赋能商业未来」为使命,致力于用最前沿的人工智能技术为企业提供 AI 相关产品及商业解决方案。公司战略为「技术产品」+「行业场景」的双轮驱动模式,极力推动技术商业化。创新奇智 CEO 徐辉在 IT 行业拥有 20 余年的销售、产品、技术、服务、管理经验,历任 IBM、微软、SAP 等多家世界 500 强科技巨头企业高管。

自成立伊始,创新奇智已在零售、制造、金融等多个领域的持续发力,稳步推进人工智能算法商业化。成果包括机器学习平台和 AI 工业视觉平台 ManuVision,以及多篇顶级会议论文。而除了这次 Pascal VOC 赛事夺冠之外,创新奇智在多个世界顶级人工智能算法大赛上夺冠。比如,创新奇智最近在 WIDER FACE 人脸检测赛事中夺冠。

创新奇智拥有优异的技术研发团队,结合 AI 技术商业化的特点,制定了科学技术人才三级体系建设方案,包括:「创新奇智科研委员会、创新奇智创新研究院和创新奇智工程算法研发团队」。创新奇智科研委员会专家包括前腾讯 AI Lab 负责人张潼、 百度研究院三维视觉首席科学家杨睿刚、密歇根州立大学教授张弥、创新工场人工智能工程院执行院长王咏刚、创新奇智 CTO 张发恩等。

“voc数据集格式(voc数据集和coco数据集区别)” 的相关文章

中国驰名商标认定条件及办法,2019中国驰名商标名单

驰名商标,顾名思义指的是具有很高知名度,为公众所熟知的商标。“驰名商标”来自于《保护工业产权巴黎公约》,在该公约中规定成员国应承担对驰名商标予以大于普通商标的保...

2023年苹果免费换电池条件(苹果换电池价格)

随着苹果“降频门”越演越热,现在都已经到了白热化的阶段。自从苹果承认旧设备降频是他们干的之后,貌似已经成为过街老鼠,人人喊打了都。毕竟给了你们一巴掌,怎么着也得...

java输出语句格式(使用java输出helloworld)

跟着彦磊学Java系列为Java基础入门系列。通过此系列,我们将了解Java基础知识,包括变量、数据类型、运算符,选择结构、循环结构、数组等基本知识。此系列总结...

12月人民币升至全球第四大活跃货币(六年来首次)

环球银行金融电信协会(SWIFT)当地时间1月19日发布数据显示,2021年12月,在基于金额统计的全球支付货币排名中,人民币全球支付排名升至全球第四位,这是六...

win10设置屏幕亮度调节(win10亮度被锁定方法)

如何调整桌面计算机的屏幕亮度,让您共享Win7系统以调整桌面屏幕亮度。1.桌面屏幕是外部屏幕。通常,显示屏上有一个菜单按钮,让我们先单击此按钮。2,因此我们可以...

spring文件上传怎么实现(spring文件上传大小限制)

SpringBoot或SpringCloud快速实现文件上传很多时候我们都需要在SpringBoot或SpringCloud中快速集成文件上传功能,但是对于新手...

创业环保项目有哪些,3种节能环保创业项目介绍

大家可能经常会提到“五位一体”的概念,那什么是五位一体呢?经济、政治、文化、社会、生态文明建设五位一体,全面推进。生态文明建设受到了社会和国家的重视。对于创业者...

wifi怎么限速别人的网速(限制wifi网速的设置步骤)

个人经验分享:大部份家用台式电脑与手机都是自动获取的IP地址,自己的电脑和手机也要使用同一网络,所以在做限制之前要把自己的电脑与手机设置成固定IP。(以TD-W...

中央空调系统组成原理,中央空调冷却水系统详解

中央空调系统由一系列驱动流体流动的运动设备(如水泵、风机及压缩机)、各种型式的热交换器(如风机盘管、蒸发器、冷凝器及中间热交换器等)及连接各种装置的管道(如风管...

dns配置错误怎么修复(dns错误的解决方法)

网络连接配置和dns异常会导致电脑无法正常访问网络,通常只需要在电脑上调试所连接网络的dns就能解决,下面小编带来教程教你解决网络连接配置和dns异常的问题。如...