一、场景分类

1、传统方法

视觉词袋(Bag of visual words):将图像中的关键点(Keypoint)进行聚类后,形成字典,然后再根据不同图片形成不同视觉词向量。

2、—多分辨率、局部采样方法

3、—神经网络与传统Fisher Vector方法结合

 将样本分成小块放入网络进行训练,直接将图片标签作为块标签。网络最后一层隐藏层提取为描述特征,输出作为当前块的语义概率;将特征描述和概率作为参数带入Fisher Vector 特征转换公式,再训练SVM分类器进行分类。

二、基于注意力机制的细粒度图像分类

1、细粒度分类

在相同基本类别下对其繁多的子类别进行区分

• 更关注细节差异

• 鸟鱼花品种分类、飞机或汽车型号分类

2、注意力机制

• 计算每张输入图片的Class Activation Mapping

3、分类模型:Bilinear CNN

• 使用双流的CNN架构,考虑了局部和局部之间的相互关系

• 具有更强的特征表达能力