An Attention Pooling based Representation Learning Method for Speech Emotion Recognition

本文编写于 1954 天前，最后修改于 1942 天前，其中某些信息可能已经过时。

前段时间完成了这篇论文的复现
最近没有时间做详细介绍
主要说一下论文特色

论文特色

本文采用了不同形状的卷积核分别在时域和频域上进行特征提取，之后进行拼接，更为有效地利用了频谱图的特征。之后通过多层卷积层和池化层进一步获得高维特征。需要注意的是，先前的研究表明，在语义分割和细分类，二阶池化效果更好。作者使用了二阶池化，增加了计算量以提升效果。在网络的最后根据人类视觉系统的启发，使用了top-down attention和bottom-up相结合的模式进行识别与分类。top-down attention层实现了自顶向下的注意力机制，利用先验知识理解图像，bottom-up则仅负责处理提取特征。
该论文在Angry的识别准确率较高，但Happy类别准确率远低于同类论文，可能是由于两种类别特征较为相似，模型将大部分的Happy类误分到了Angry类，同样的情况也出现在了panic和sad类别上。从提出top-down attention论文中对动作识别的可视化分析部分，我认为top-down attetion结构会更关注情感较为强烈的特征部分，因此会忽略一些情感较弱的边缘信息，这可能是导致网络容易出现分类准确率相差较大的原因。

版权属于：nicohime
本文链接：http://nicohime.com/archives/43/
转载时请注明出处及本声明

登录后台

页面导航

论文特色