【AC】Accent Conversion论文整理
创始人
2024-05-24 11:52:19
0

分为parallel data-based Accent Conversion 和non-parallel data-based Accent Conversion, 这里的parallel data指的是 source speaker 和 target speaker 说同样的文本的语料。

1. Parallel data based accent conversion methods

大部分方法依赖bottleneck feature / PPG features作为conversion的中间特征,bottleneck features/ PPG features作为耦合了accent和content的信息。[1][2][3]

  • Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams(INTERSPEECH 2019, Zhao Guanlong)

L2 speech synthesizer负责建模timbre, acoustic model负责建模 accent 和 content. 训练时候应用L2 PPG重构L2音频,推理阶段应用L1 PPG驱动L2 speech synthesizer得到转换后的输出。Acoustic model 是kaldi预训练好的 DNN-based ASR声学模型,L2 speech synthesizer应用了tacotron结构。
在这里插入图片描述

  • Converting Foreign Accent Speech Without a Reference(TASLP 2021, Zhao Guanlong)

先用 L2 BNF features 驱动 L2 synthesizer 生成 L2 的句子,使得 L2 synthesizer 完成timbre的建模。随后应用L1 BNF驱动 L2 synthesizer 生成 accent conversion 的 ground truth, 用于后续 Pronounciation correction 的训练。L2 synthesizer 和 Pronounciation correction model 的结构都是tacotron, 细节有所不同。
在这里插入图片描述

  • Accentron: Foreign accent conversion to arbitrary non-native speakers using zero-shot learning(Computer Speech & Language 2022, Ding Shaojin)

通过source speech的BNF features和speaker embeddings, accent embedings重构target speech。Seq2seq Model 参考tacotron结构(p-Bi-LSTM)。BNF耦合了source的content和accent,通过从 target mel 中提取accent和speaker embedding,因此Seq2seq Model需要负责建模timbre和accent。
在这里插入图片描述

  • Zero-Shot Foreign Accent Conversion without a Native Reference(INTERSPEECH 2022)

将accent conversion分成两个任务:convert accent 和 speech synthesize. Translator 负责将有口音的BNF转成没有口音的BNF,Synthesizer负责将没有口音的BNF生成mel(speaker是source speaker的)。Translator和Synthesizer都用了tacotron结构。
在这里插入图片描述
[1] Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams(INTERSPEECH 2019)
[2] Accentron: Foreign accent conversion to arbitrary non-native speakers using zero-shot learning(Computer Speech & Language 2022, Ding Shaojin)
[3] Zero-Shot Foreign Accent Conversion without a Native Reference(INTERSPEECH 2022)

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...