Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3

创始人

2024-02-24 18:30:21

0次

在这里插入图片描述

Listen

Encoder目标：
去掉noises，提取出相关信息
在这里插入图片描述
encoder有很多做法：

CNN见文章：CNN-卷积神经网络

在这里插入图片描述

self-attention见文章self-attention

Pyramid RNN将两个结合，然后送到下一层。Pooling over time则是两个中取一个送到下一层。

在这里插入图片描述

Attention

match这个function可以自己定义，常用的是dot-product attention，作用是计算h1和z0的相似度。
在这里插入图片描述
还有一种additive attention

c0（在文献上常常被成为Context Vector)会被当做decoder即RNN input

distribution（是通过softmax的)会给每一个token一个概率值

Spell

假设输入的一段声音讯号是cat，则model先后的需要输出c——a——t
先输出c
在这里插入图片描述
输出c后，用z1再次计算新的阿尔法的值

注意：a是由上一层的c和z2共同得到

EOS 代表辨识结束

Beam Search

red path：每一次都选择概率最大的路径
在这里插入图片描述
Greedy Decoding不见得能找到几率最大的那个

解决上述问题的方法：Beam Search，每次都保留B个最好的路径。Beam size的大小需要自己去考量的。

Training

输入是cat，我们希望Cross entropy越小越好，换言之p©越大越好
在这里插入图片描述

Why Teacher Forcing？

如果前面的输出是错误的
在这里插入图片描述
经过一连串的training后，Model变厉害了，得到了正确的输出

不管前面输出什么只专注训练c——>a这件事
在这里插入图片描述

Back to Attention

在这里插入图片描述

在语音识别上我们希望阿尔法是由左向右

而不是阿尔法乱跳

所以第一篇用LAS做语音辨识的作者加了一个机制：
Location-aware attention

在这里插入图片描述

Limitation of LAS

在这里插入图片描述

上一篇：mac-m1-docker安装nacos异常

下一篇：一张照片，如何生成一个二维码？

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播，要解决的几个问题是：1&...

【PdgCntEditor】解... 一、问题背景大部分的图书对应的PDF，目录中的页码并非PDF中直接索引的页码...

在Word、WPS中插入AxM... 引言我最近需要写一些文章，在排版时发现AxMath插入的公式竟然会导致行间距异常&#...

protocol buffer... 目录目录什么是protocol buffer 1.protobuf 1.1安装 1.2使用...

修复爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...

Windows10添加群晖磁盘... 在使用群晖NAS时，我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。通过...

Fluent中创建监测点 1 概述某些仿真问题，需要创建监测点，用于获取空间定点的数据࿰...

ChatGPT 怎么用最新详细... ChatGPT 以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人...

educoder数据结构与算法... ...

MySQL下载和安装（Wind... 前言：刚换了一台电脑，里面所有东西都需要重新配置，习惯了所...