本文编写于 173 天前,最后修改于 162 天前,其中某些信息可能已经过时。

前段时间完成了这篇论文的复现
最近没有时间做详细介绍
主要说一下论文特色


论文特色

本文采用了不同形状的卷积核分别在时域和频域上进行特征提取,之后进行拼接,更为有效地利用了频谱图的特征。之后通过多层卷积层和池化层进一步获得高维特征。需要注意的是,先前的研究表明,在语义分割和细分类,二阶池化效果更好。作者使用了二阶池化,增加了计算量以提升效果。在网络的最后根据人类视觉系统的启发,使用了top-down attention和bottom-up相结合的模式进行识别与分类。top-down attention层实现了自顶向下的注意力机制,利用先验知识理解图像,bottom-up则仅负责处理提取特征。
该论文在Angry的识别准确率较高,但Happy类别准确率远低于同类论文,可能是由于两种类别特征较为相似,模型将大部分的Happy类误分到了Angry类,同样的情况也出现在了panic和sad类别上。从提出top-down attention论文中对动作识别的可视化分析部分,我认为top-down attetion结构会更关注情感较为强烈的特征部分,因此会忽略一些情感较弱的边缘信息,这可能是导致网络容易出现分类准确率相差较大的原因。