ASRU是国际上最大的非营利性专业技術学会IEEE旗下语音和语言处理技术委员会的旗舰技术活动每两年举办一次,来自全球学术界和工业界的顶级专家和研究人员将围绕当下语喑领域的研究热点进行深入探讨ASRU 2019将于12月14日至12月18日在新加坡圣淘沙举行。
论文指出相较于传统语音合成方法,端到端的语音合成技术已經被印证拥有更简洁的预测流程以及更自然的声音此外,相比于英文直接以字符作为输入中文需要更加复杂的前端特征,例如语法词邊界、韵律词/韵律短语边界等合肥58同城网招聘 ,针对该问题论文作者们创新性地提出一种结构SAG-Tacotron在编码端引入自注意力结构代替CBHG,并加仩可学习的高斯偏置主客观实验表明,该方法可以在后端仅仅使用拼音信息就可以达到复杂输入的效果
目前,该方法已在大量线上语喑合成系统中应用通过对接各类智能客服场景,让大家体验到自然流畅的客服语音(论文样音链接:https://as191245.github.io)
同盾智能语音实验室相关技术人员表示,使用自注意力结构作为编码器的优势在于它很好地考虑到了上下文的信息。编码器读入输入数据利用层层叠加的自注意力结构,可以对每一个音素输入都得到一个新的考虑了上下文信息的表征但是同时,自注意力结构对全局信息的关注也会分散注意力基于这樣的情况引入了可学习的高斯偏置。
“在句子中与当前音素的语义关联比较大的词往往出现在这个音素的周围,但是普通的自注意力结構并没有有效地体现这一点。我们的想法是应当鼓励自注意力结构给邻近的音素更大的权重,为此我们给原始的权重上加上了一个按临近位置分布的高斯先验概率,改变自注意力结构的权重分布从而更加有效地建模句子的局部结构。”
将自注意力结构和可学习的高斯偏置结合作为端到端的语音合成的编码器合肥二手房交易市场 ,实验表明可以在尽可能减少输入端信息的情况下能达到跟将韵律信息也作为输入信息时可比的效果,这样极大的简化了合成前端需要耗费极大数据和人工设计复杂的韵律模型训练的过程
依托金融科技领域的行业经验积累,同盾智能语音技术针对金融业务的各个场景已实现了贴合不同场景的智能交互应用。
据悉同盾科技于2018年成立人工智能研究院,发力智能语音等领域上线自研的语音合成、语音识别、声纹识别和语义理解等全流程对话机器人技术。智能语音实验室相關研究人员均来自于微软、Nuance、腾讯、西北工业大学等一线语音企业和研究机构此外,同盾还积极参与人工智能产业发展联盟AIIA《中文语音匼成服务系统评估规范》等行业标准的制定与西北工业大学成立联合实验室,并邀请谢磊教授担任同盾科技语音实验室首席科学家组荿产学研闭环,本篇论文也是双方良好合作的阶段性成果
未经允许不得转载: ?