张图片的类别之后,更进一步的操作就是用矩形框把该物体的位置在图片中位置给圈出来。也就是后来大家熟悉的人脸上的框框。
再进一步就是分割了,不采用矩形框这样大的,规则的图形,而是像素级别地把某个物体的细致轮廓在图片上表示出来,也就是一种类似自动抠图的操作。
当然了,不论是检测还是分割,都是需要人工去标注训练集的原始答案的。
IMAGE-2013的检测赛道数据集不算太大,一共接近40万张图片,共区分200类。这种进阶类型的数据,标注起来要辛苦很多,因此数据量和分类不可同日而语。
不过,相比2012年的5717张,区区一年的时间,已经是百倍的巨大飞跃了。
“没想到时间竟然会这么多。”孟繁岐记得这时候的检测大多数还是基于传统HOG,LBP的办法,在13年的这个数据集上mAP最高也就0.225左右。
自己既然来得及完成论文上的实验,自然要抽空去降维打击一下这些老古董方法。
每个参赛队伍在各任务上有三次提交的机会,孟繁岐只需要一次就够了。
参与竞赛的队伍往往会训练好几个版本的模型,然后做一些排列组合的集成