主要总结一下最近看的几篇场景分类文献,顺便总结场景、物体和事件分类的关系。
[1] ILSVRC 2015 Scene Classi cation Challenge.冠军,主要贡献是Relay Backpropagation和Class-aware Sampling。比赛结果如下图:
[2] 16年场景分类的冠军海康威视。比较有特色的地方是Supervised Data Augmentation,label smoothing (LS) via prior label distribution,Train and Test in Harmony。比赛结果如下:
[3]senet, ILSVRC 2017 classification冠军。在比赛中使用了label smoothing,且在最后几次训练中冻结了BN层。不多说了,在places365的结果如下:
之前一直从细粒度图像分类[15]的角度思考场景的类间相似性和类内差异性。而且针对图像细粒度分类的技术确实在场景分类上观察到了效果的提升,如bilinear[12-13],有理由相信进化版kernel pooling[14]也应该有效,虽然原文没有做这方面的实验。具体可参考之前的博文。但是实际上细粒度图像分类和场景分类既有联系又有区别,比如我们可以尝试思考细粒度物体分类和细粒度场景分类这样的概念。在场景分类中,场景是物体,空间布局,背景和它们之间的关联关系综合而成,是十分抽象的概念。另外场景的类间相似性和类内差异性也不等同于细粒度中的情形,其中可能涉及到空间布局,尺度和物体的种类等等。而且场景还存在标签的主观性和歧义性。幸运的是已经有人针对这些问题进行了探索,下面主要看针对场景分类这些难点的一些工作。
[4] 这篇文章很有意思,指出ImageNet-CNNs和Places-CNNs有不同的适用scale。在场景数据集和物体数据集中物体的大小分布和数量分布都有显著的差别,见下图:
可见物体分类数据集中物体尺寸较大,且数量很少。ImageNet-CNNs和Places-CNNs在不同尺度的表现如下:
文章提出的多尺度架构如下:
[5-9] [5-6]分别是[7-9]这三篇系列工作的中英文概述,整个系列非常有启发性。整个动机作者在[5]解释的很清楚,这里不班门弄斧了。
[10] 同样来自上述课题组,将物体和场景分类中学习到的特征迁移到事件分类上。文章指出相比于物体和场景,事件更为抽象。
[11] 这篇文章还是关注场景中的物体信息,尤其是不同场景中存在的同样物体,主要是希望增强图像表示的区分能力。通过统计物体在场景数据集中的共现规律来选择区分性强的物体而丢弃区分性差的物体。
references
- Shen L, Lin Z, Huang Q. Relay backpropagation for effective learning of deep convolutional neural networks[C]//European conference on computer vision. Springer International Publishing, 2016: 467-482.
- Towards Good Practices for Recognition & Detection - ImageNet
- Hu J, Shen L, Sun G. Squeeze-and-Excitation Networks[J]. arXiv preprint arXiv:1709.01507, 2017.
- Herranz L, Jiang S, Li X. Scene recognition with CNNs: objects, scales and dataset bias[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 571-579.
- 乔宇:深度模型让机器理解场景|VALSE2017之十一
- Good Practice on Deep Scene Classification
- Guo S, Huang W, Wang L, et al. Locally supervised deep hybrid model for scene recognition[J]. IEEE Transactions on Image Processing, 2017, 26(2): 808-820.
- Wang Z, Wang L, Wang Y, et al. Weakly supervised patchnets: Describing and aggregating local patches for scene recognition[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2028-2041.
- Wang L, Guo S, Huang W, et al. Knowledge guided disambiguation for large-scale scene classification with multi-resolution CNNs[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2055-2068.
- Wang L, Wang Z, Qiao Y, et al. Transferring Deep Object and Scene Representations for Event Recognition in Still Images[J]. International Journal of Computer Vision, 2017: 1-20.
- Cheng X, Lu J, Feng J, et al. Scene recognition with objectness[J]. Pattern Recognition, 2018, 74: 474-487.
- Bilinear CNNs for Fine-grained Visual Recognition
- Gao Y, Beijbom O, Zhang N, et al. Compact bilinear pooling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 317-326.
- Cui Y, Zhou F, Wang J, et al. Kernel pooling for convolutional neural networks[C]//Computer Vision and Pattern Recognition (CVPR). 2017.
- Fully Convolutional Attention Networks for Fine-Grained Recognition
(Wayne2019) |