研究进展
当前位置:首页 > 研究进展
基于具有长短时记忆能力的递归神经网络的多模态维度情感识别方法
发布日期:2015-11-19    浏览次数:414

情感是人类认知的重要组成部分,厘清计算机对情感的认知,构建符合人类认知心理的连续情感计算模型是进一步揭示大脑工作原理的关键。国际多媒体领域的重要会议ACM Multimedia从2011年开始举办Audio-Visual Emotion Challenge(AVEC)连续维度情感识别评测(前3由情感领域著名的国际智能计算与情感交互国际会议承办),每年大约有30余家全世界著名的在情感认知领域的著名团队参赛,到今年已经是第6届了。

中科院自动化所模式识别实验室语音人机交互团队参加了今年的AVEC2015竞赛。团队提出了一种基于具有长短时记忆能力的递归神经网络的多模态维度情感识别方法。因为情感的表达有着明显的连续性和上下文相关性,仅从单一时序粒度往往很难确认说话者的情感状态,而将较短时序粒度的上下文信息与较长时序粒度的上下文信息相结合进行识别将有助于解决这一问题。本方法在分析常用的情感识别模型的基础上,同时在该模型中添加了时序池化层,达到以下三个作用:(1)大幅度降低了预测序列的长度,是递归神经网络能够实现粒度更大范围内的时序建模;(2)池化出序列中连续若干帧内更具表现力的特征表示,实现了序列较小尺度内的时序建模;(3)对各个不同采样率的模态实现了时序对齐,以进行多模态特征层融合。研究同时调研了不同的优化目标对维度情感模型中标注噪声的鲁棒性问题,通过充分的实验验证得到了Hinge-Loss在维度情感识别中的优越性。本项目提出的多尺度时序建模方法,可同时用于音频、视频等多模态领域,并取得了很好的效果。

论文“Long Short Term Memory Recurrent Neural Network based Multimodal Dimensional Emotion Recognition”发表在Audio-Visual Emotion Challenge 2015 workshop @ACM Multimedia 2015 (AVEC workshop @ACM MM2015, EI Index)学术会议上。

 

图1. 多尺度时序建模的维度情感识别方法