机器学习基于副语言信息的情感识别
[摘要] 机器学习技术的最新进展,导致通过分析图像、录音、脑电图或心电图来识别情绪状态的工具出现。这些工具有几个有趣的应用程序,例如,实现更有效的人机交互,其中计算机识别并响应人类用户的情绪。
德克萨斯大学阿灵顿分校(意译)的研究人员最近探讨了机器学习仅用于副语言信息的情感识别。副语言学是口语交际的一个方面,不涉及单词,如音高、音量、语调等。
机器学习技术的最新进展,导致通过分析图像、录音、脑电图或心电图来识别情绪状态的工具出现。这些工具有几个有趣的应用程序,例如,实现更有效的人机交互,其中计算机识别并响应人类用户的情绪。
4种情感示例谱图,图片来源:Papakostas等
“一般来说,人们可能会争辩说,言语带有两种不同类型的信息:显性或语言信息,其中涉及说话者的发音模式;以及隐含或副语言信息,涉及语言模式发音的变化,”研究人员在他们发表在“ 实验医学与生物学进展 ”系列丛书中的论文写道。“使用其中一种或两种类型的信息,人们可能会尝试根据它所携带的情感对包含语音的音频片段进行分类。然而,即使对于人类来说,语音识别也是一项非常困难的任务,无论他/她是否是该领域的专家(例如心理学家)。”
许多现有的自动语音识别(ASR)方法试图通过分析语言和副语言信息来识别来自语音的情绪。通过部分关注语言属性,这些模型有一些缺点,例如严格的语言依赖性。因此,研究人员决定仅基于对副语言信息的分析来关注情绪识别,希望获得多语言情感识别。
研究人员在他们的论文中写道:“在本文中,我们的目的是仅仅基于副语言信息来分析说话者的情绪。” “我们比较了两种机器学习方法,即卷积神经网络(CNN)和支持向量机(SVM)。”
研究人员在原始光谱图上训练了CNN模型,在一组低级特征上训练了SVM模型。使用三种广为人知的情绪语音数据集训练和评估两种模型:EMOVO,SAVEE和EMO-DB。这些数据集包含不同语言的情感语音记录 - 意大利语,英语和德语。
两种机器学习模型经过训练,可以识别四种常见的情绪类别:快乐、悲伤、愤怒和中立。研究人员为每种机器学习方法进行了三次实验,其中一个数据集用于测试,其余两个用于训练。
“选择数据集产生的一个主要困难是语言之间的巨大差异,因为除语言差异外,每种情绪的表达方式也存在很大差异,”研究人员在他们的论文中写道。
总体而言,他们发现SVM的表现远远优于CNN,在SAVEE和EMOVO数据集上进行训练后获得了最佳结果,但在EMO-DB上进行了测试。这些结果很有希望,但并不是最优的,这表明我们距离实现持续有效的多语言情感识别还有很长的路要走。
“我们未来的工作计划包括使用更多的数据集进行培训和评估,”研究人员在他们的论文中写道。“我们还旨在调查其他预训练的深度学习网络,因为我们认为深度学习可能会对手头的问题做出重大贡献。最后,我们的计划之一是将这些方法应用于现实生活中的问题,例如培训中的情感识别和/或教育计划。”
注:本文编译自techxplore
安全自动化 官方微信 as视界 服务号


不得转载声明: 凡文章来源标明“安防知识网”的文章著作权均为本站所有,禁止转载,除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。