下面分享2023年2月27日-3月3日看的一篇论文,方向主要是自然语言处理中的语音情感识别
论文题目 | Temporal modeling matters:a novel temporal emotional modeling approach for speech emotion recognition |
---|---|
论文地址 | Temporal modeling matters:a novel temporal emotional modeling approach for speech emotion recognition |
时间 | 2022年 |
会议/期刊 | ICASSP |
摘要:语音情感识别 SER
通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。为了实现这一目标,我们为SER
引入了一种新的时间情感建模方法,称为时间感知双向多尺度网络 TIM-Net
,它从不同的时间尺度学习多尺度上下文情感表示。具体而言,TIM-Net
首先使用时间感知块来学习时间情感表征,然后整合来自过去和未来的补充信息来丰富上下文表征,最后融合多个时间尺度特征以更好地适应情感变化。在六个基准 SER
数据集上的大量实验结果表明,TIM-Net
的性能优越,在每个语料库上,平均 UAR
和WAR
比第二好的提高了 2.34%
和 2.61%
。值得注意的是,TIM-Net
在跨语料库 SER
任务上优于最新的领域自适应方法,显示出强大的通用性。
语音情感识别(SER
)是从语音信号中自动识别人类情绪和情感状态,使机器能够与人类进行情感交流[1]。随着人机交互技术的发展,它变得越来越重要。
SER
的关键挑战是如何从语音信号中建模情感表征。传统方法[2,3] 专注于手工特征的有效提取,这些特征被输入到传统的机器学习方法中,例如支持向量机(SVM
)。基于深度学习技术的更新方法旨在以端到端的方式学习语音的类判别表示,其采用各种深度学习架构,如卷积神经网络(CNN
)[4,5] 、递归神经网络(RNN
)[6,7] 或 CNN
和 RNN
[8] 的组合。
SER
中广泛采用了多种时间情感建模方法,如长短期记忆(LSTM
)、门递归单元(GRU
)和时间卷积网络(TCN
),旨在捕获语音信号的动态时间变化。例如,Wang等人[7] 提出了一种 Bi-LSTM
,以利用来自不同时频分辨率的时间信息。Zhong等人[9] 使用具有双 GRU
和焦点丢失的 CNN
来学习综合时空表示。Rajamani 等人[6]在 GRU
中提出了一种基于注意力的 ReLU
,以捕捉特征之间的远程交互。Zhao 等人[8] 充分利用 CNN
和 Bi-LSTM
来学习时空表示。然而,所有这些方法都存在以下 缺点:1)它们仍然缺乏足够的能力来捕获长期上下文建模的长期依赖关系;2)受说话人不同的发音速度和停顿时间的影响严重,因为他们只能从低层次的特征[10] 感知固定的时间尺度或感受野(receptive field)。
为了克服SER中的这些限制,我们提出了一种时间感知双向多尺度网络,称为 TIM-Net 。这是一种新的时间情感建模方法,用于从不同时间尺度学习多尺度上下文情感表示。贡献有三个:首先,我们提出了一种基于扩展因果卷积(Dilated Causal Convolution
)的时间感知块,作为 TIM-Net
的核心单元。扩张卷积(又称为膨胀卷积)可以扩大和细化时间模式的感受野(Receptive Fields
)。与 RNNs
相比,因果卷积(Causal Convolution
)结合扩张卷积(Dilated Convolution
)可以帮助我们放松一阶马尔可夫性质的假设[11]。通过这种方式,我们可以将一个 N-order
(N 表示所有先前帧的数目)连接到网络以聚合来自不同时间位置的信息。第二,我们设计了一种新的双向架构,该架构集成了来自过去和未来的补充信息,用于建模长期时间依赖性,灵感来自于上下文信息极大地影响人类的情感感知能力这一事实。第三,我们设计了一个基于多尺度特征的动态融合模块,以动态处理不同尺度的语音信号,因为发音习惯(如速度或暂停时间)因说话者而异,使得语音呈现出时间尺度变化的特征。
为了说明 TIM-Net
的时间建模能力,我们使用最常用的 Mel 频率倒谱系数(MFCC
)特征[12]作为 TIM-Net
输入。我们首先将采样率设置为每个语料库的原始采样率,并将成帧操作和汉明窗应用于具有 50ms 帧长和 12.5ms 移位的每个语音信号。然后,在对每个帧执行 2048 点快速傅里叶变换之后,语音信号经历梅尔尺度三角滤波器组分析。最后,通过离散余弦变换处理 MFCC
的每一帧。
我们提出了一种新的时间情感建模方法,称为 TIM-Net
,它从向前和向后方向学习长期情感依赖性,并在帧级别捕获多尺度特征。图1显示了 TIM-Net
的详细网络架构。为了学习具有长程相关性的多尺度表示,TIM-Net
由以下组成 n 具有不同时间感受野的正向和反向的时间感知块(TAB
)。接下来,我们详细介绍每个组件。
时间感知块( TAB
)。我们设计 TAB
来捕获时间感知表示,将其作为 TIM-Net
的核心单元。如图所示,TTT 表示一个TAB
,每个TAB
由两个子块和一个 sigmod
函数组成来学习时间注意图 AAA ,通过按元素生成输入和 AAA 来产生时间感知特征 FFF,对于第jjj个 TAB
TjT_jTj 的两个同一子块,每个子块开始时添加一个扩张率为2的 j−1j-1j−1 次方的 DC Conv
(扩展因果卷积)并且伴随着因果约束。扩张卷积扩大和细化了接受域(Receptive Field
),因果约束(Casual Constraint
)保证了未来信息不会泄露给过去。DC Conv
之后是批量归一化、ReLU
激活函数和空间池化(dropout
)。
双向时间建模(Bi-direction temporal modeling) 为了整合来自过去和未来的互补信息,以判断情绪极性并建模长期时间依赖性,我们设计了一种基于多尺度特征的新型双向架构,如图1所示。Formally(形式上),对于前面 TAB
输入 FjF_jFj 的 Tj+1T_{j+1}Tj+1 ,输出 Fj+1F_{j+1}Fj+1 有方程1给出。
Fj+1→=A(Fj→)⨀Fj→(1)\overrightarrow{F_{j+1}}=A(\overrightarrow{F_j})\bigodot\overrightarrow{F_j}\kern15em(1) Fj+1=A(Fj)⨀Fj(1)
Fj+1←=A(Fj←)⨀Fj←(2)\overleftarrow{F_{j+1}}=A(\overleftarrow{F_j})\bigodot\overleftarrow{F_j}\kern15em (2) Fj+1=A(Fj)⨀Fj(2)
其中(where),F0F_0F0 来自于第一个 1*1
卷积层的输出,反向可以类似地在方程2中定义。然后我们将双向语义依赖性和话语级别的紧凑全局上下文表示相结合,以如下方式感知上下文:
gj=G(Fj→)+G(Fj←)(3)g_j=G(\overrightarrow{F_j})+G(\overleftarrow{F_j}) \kern15em(3) gj=G(Fj)+G(Fj)(3)
其中,全局时间池化操作 g
在时间维度上取平均值,从第 j 个 TAB
中产生一个特定感受野(specific receptive field
)的表示向量。
多尺度动态融合 此外(Furthermore),由于发音习惯(例如速度或停顿时间)因说话者而异,因此发音具有时间尺度变化的特征。SER 受益于考虑动态时间感受野。我们设计了动态融合模块,以自适应地处理不同尺度的语音输入,旨在为训练阶段的当前输入确定合适的时间尺度。我们从不同的 TAB
(时间感知块) 采用加权求和运算将带有动态感受野(dynamic receptive fields
)(DRF)的特征融合权重 WdrfW_{drf}Wdrf 。DRF
融合定义如下:
Wdrf=∑j=1nwjgj(4)W_{drf}=\textstyle\sum_{j=1}^nw_jg_j\kern15em(4) Wdrf=∑j=1nwjgj(4)
其中,Wdrf={W1,….,Wn}TW_{drf} = \{W_1, …. , W_n\}^TWdrf={W1,….,Wn}T 是可训练的参数。一旦情感表示 WdrfW_{drf}Wdrf 生成具有很强的可分辩性,我们可以简单地使用一个具有 softmax
函数的完全连接层来进行情感分类。
数据集 为了证明所提出的 TIM-Net
的有效性,我们在6个基准 SER
语料库上比较了 TIM-Net
和最新(SOTA)方法,包括汉语语料库 CASIA
[21]、德语语料库 EMODB
[22]、意大利语语料库 EMOVO
[23]、英语语料库 IEMOCAP
[24]、RAVDESS
[25]和 SAVEE
[26]。
实现细节 在实验中,从 Librosa
工具箱中提取了39维 MFCC
。交叉熵准则被用作目标函数。Adam
算法被用来优化一个带有初始学习率 α = 0.001
和 64 个批处理大小的模型。为了避免在训练阶段中过拟合,我们使用因子为 0.1 作为正则化的一种形式来实现标签平滑,并将空间池化率设置为 0.1
,为了与 SOTA
方法进行公平比较,我们在实验中进行了10倍交叉验证(CV)以及之前的工作[17,18,19]。
评价指标(Evaluation metrics) 由于类别不平衡,我们使用两个广泛使用的指标,加权平均召回率(Weighted Average Recall
),即准确率 和 未加权平均召回率(Unweighted Average Recall
)来评价每种方法的性能。WAR
用类概率来平衡不同类别的召回指标,而 UAR
对每个类别一视同仁;有关数据集和评价指标定义的总结看附录A。
与 SOTA 方法对比 表1显示了6个基准数据集(benchmark datasets
),表明我们的方法在很大程度上持续显著优于所有这些比较方法。值得注意的是,我们的方法在 UAR
和 WAR
的平均得分上比每个语料库的第二好得分分别提高了 2.34%
和 2.61%
。此外(in addition),图2所示的 CASIA
和 EMODB
数据集上的混淆矩阵(confusion matrices
)进一步证实了 TIM-Net
实现了优异的类别辨别性能,每个情绪类别的识别率超过 90%
。
学习情感表征的可视化 为了调查 TIM-Net
在表示学习上的影响,我们通过图 3 中的 t-SNE
技术可视化了 TIM-Net
和 GM-TCN
的学习表示。为了公平比较,我们首先使用相同的8:2
在 CASIA
语料库上对两种方法进行验证,并在相同的训练阶段之后可视化相同测试数据的表示。尽管 GM-TCN
也关注多尺度和时间建模,但图3(a)显示了恐惧与悲伤或愤怒与惊讶之间的严重重叠。相比之下,图3(b)显示,不同的表示都具有清晰的分类边界。结果证实,TIM-Net
提供了更多的类区分表示,以支持优异的性能。
领域概括分析( Domain generalization analysis
)。由于语言和说话者的不同,SER
语料库虽然有着相同的情感,但有着显著的领域转移。将模型推广到未知领域对于 SER
来说至关重要。受 CAAM
[18]中的领域适应性研究的启发,我们同样验证了 TIM-Net
在跨语料库 SER
任务上的可推广性,遵循与 CAAM
相同的实验设置,除了 TIM-Net
不能访问目标领域。具体来说,我们同样选择了5个类别进行公平的比较,即愤怒、恐惧、快乐、中立和悲伤,这5个语料库共享( IEMOCAP
除外,IEMOCAP
只有4种情绪)。这5个语料库构成了20个跨语料库组合。我们在表2中报告了每项任务的平均 UAR
和 WAR
及其与10次随机运行的标准偏差;详细结果见附录 C 。
TCN
在不同语料库上的表现接近随机猜测,概率等于 25%,TIM-Net
比 TCN
有显著改善。令人惊讶的是,TIM-Net
优于CAAM
,这是一种最新的任务特定领域适应方法。结果表明,我们的 TIM-Net
在建模情绪方面具有很强的通用性。
我们对所有语料库数据集进行了消融研究,包括 TIM-Net
的以下变体:TCN
:用 TCN
替换 TIM-Net
;w/o BD:删除后向 TAB
,同时保留前向 TAB
;w/o MS:去除多尺度融合 gng_ngn 用作 gdrfg_{drf}gdrf 对应于最大尺度感受野;w/o DF:平均融合用于确认动态融合的优势。消融研究结果如表 A3 所示。我们有以下观察结果。
首先,所有组成部分对整体绩效都有积极贡献。第二,我们的方法在 UAR
和 WAR
中实现了 8.31%
和 8.41%
的性能增益,而 TCN
也利用了 DC Conv
(卷积)。第三,当去除后向 TAB
或多尺度策略时,由于建模时间依赖性和感知不同尺度的情感特征的能力较弱,结果大幅下降。最后,没有动态融合的 TIM-Net
的性能比 TIM-Net
差,这验证了部署动态融合以自适应调整模型的好处。
在本文中,我们提出了一种新的时间情感建模方法,称为 TIM-Net
,以从不同的时间尺度学习多尺度上下文情感表示。TIM-Net
可以通过双向时间建模捕获长时间依赖性,并动态融合多尺度信息,以更好地适应时间尺度变化。我们的实验结果建议对 SER
问题进行时间建模,并验证了 TIM-Net
在很大程度上优于先前的最先进方法。消融研究、可视化和领域概括分析进一步证实了 TIM-Net
的优势。未来,我们将通过所提出的时间建模方法来研究情感和语音内容的分离,以便在跨语料库 SER
任务中更好地泛化。