中国科学院自动化所在语音识别研究中获进展 - STEAM（学术科研）－全球企业门户

【产通社，8月5日讯】中国科学院（Chinese Academy of Sciences）官网消息，自动化研究所智能交互团队在环境鲁棒性、轻量级建模、自适应能力以及端到端处理等几个方面进行持续攻关，在语音识别方面获新进展，相关成果将在全球语音学术会议INTERSPEECH2019发表。

由于情感数据标注困难，语音情感识别面临着数据资源匮乏的问题。虽然采用迁移学习方法，将其他领域知识迁移到语音情感识别，可以在一定程度上缓解低资源的问题，但是这类方法并没有关注到长时信息对语音情感识别的重要作用。针对这一问题，陶建华、刘斌、连政等人提出了一种基于未来观测预测（Future Observation Prediction, FOP）的无监督特征学习方法。FOP采用自注意力机制，能够有效捕获长时信息；采用微调（Fine-tuning）和超列（Hypercolumns）两种迁移学习方法，能够将FOP学习到的知识用于语音情感识别。该方法在IEMOCAP情感数据集上的性能超过了基于无监督学习策略的语音情感识别。

相关生理学研究表明，MFCC (Mel-frequency cepstral coefficient)对于抑郁检测来说是一种有区分性声学特征，这一研究成果使得不少工作通过MFCC来辨识个体的抑郁程度。但是，上述工作中很少使用神经网络来进一步捕获MFCC中反映抑郁程度的高表征特征；此外，针对抑郁检测这一问题，合适的特征池化参数未能被有效优化。针对上述问题，陶建华、刘斌、牛明月等人提出了一种混合网络并结合LASSO (least absolute shrinkage and selection operator)的lp范数池化方法来提升抑郁检测的性能。首先将整段音频的MFCC切分成具有固定大小的长度；然后将这些切分的片段输入到混合神经网络中以挖掘特征序列的空间结构、时序变化以及区分性表示与抑郁线索相关的信息，并将所抽取的特征记为段级别的特征；最后结合LASSO的lp范数池化将这些段级别的特征进一步聚合为表征原始语音句子级的特征。

查询进一步信息，请访问官方网站

http://www.cas.cn/syky。（robin, 张底剪报）（完）