Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3
创始人
2024-02-24 18:30:21
0

在这里插入图片描述

Listen

Encoder目标:
去掉noises,提取出相关信息
在这里插入图片描述
encoder有很多做法:
在这里插入图片描述
在这里插入图片描述
CNN见文章:CNN-卷积神经网络

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
self-attention见文章self-attention
在这里插入图片描述
在这里插入图片描述
Pyramid RNN将两个结合,然后送到下一层。Pooling over time则是两个中取一个送到下一层。

在这里插入图片描述

Attention

match这个function可以自己定义,常用的是dot-product attention,作用是计算h1和z0的相似度。
在这里插入图片描述
还有一种additive attention
在这里插入图片描述
c0(在文献上常常被成为Context Vector)会被当做decoder即RNN input
在这里插入图片描述
distribution(是通过softmax的)会给每一个token一个概率值
在这里插入图片描述

Spell

假设输入的一段声音讯号是cat,则model先后的需要输出c——a——t
先输出c
在这里插入图片描述
输出c后,用z1再次计算新的阿尔法的值
在这里插入图片描述
注意:a是由上一层的c和z2共同得到
在这里插入图片描述
EOS 代表辨识结束
在这里插入图片描述

Beam Search

red path:每一次都选择概率最大的路径
在这里插入图片描述
Greedy Decoding不见得能找到几率最大的那个
在这里插入图片描述
解决上述问题的方法:Beam Search,每次都保留B个最好的路径。Beam size的大小需要自己去考量的。
在这里插入图片描述

Training

输入是cat,我们希望Cross entropy越小越好,换言之p©越大越好
在这里插入图片描述
在这里插入图片描述

Why Teacher Forcing?

如果前面的输出是错误的
在这里插入图片描述
经过一连串的training后,Model变厉害了,得到了正确的输出
在这里插入图片描述

不管前面输出什么只专注训练c——>a这件事
在这里插入图片描述

Back to Attention

在这里插入图片描述
在这里插入图片描述
在语音识别上我们希望阿尔法是由左向右
在这里插入图片描述
而不是阿尔法乱跳
在这里插入图片描述
所以第一篇用LAS做语音辨识的作者加了一个机制:
Location-aware attention
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Limitation of LAS

在这里插入图片描述

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...