关键词检测任务调研（Keyword Spotting）（2）

Yumenokanata 发布于2021-09-04 16:45 / 756人阅读

摘要：目前谷歌的系统使用深度神经网络，它被训练来预测子关键字目标。通过平均不同局部时间和频率区域的的输出来捕获参数少得多的平移不变性。特征提取和后验处理阶段与第节保持相同。

Convolutional neural networks for small-footprint keyword spotting

Abstract

Introduction

Keyword Spotting Task

CNN Architectures

Experimental Details

Convolutional neural networks for small-footprint keyword spotting

Sainath, T. and Carolina Parada. “Convolutional neural networks for small-footprint keyword spotting.” INTERSPEECH (2015).

大家若参考该文章，请记得添加引用说明

Abstract

(1) cnn比起DNN参数少，性能好，

(2) 我们在工作中考虑两个不同的应用场景中要考虑的问题：

一个我们限制KWS系统的乘法数，
另一个我们限制参数的数量。

(3) 我们发现，与DNN相比，CNN架构的错误拒绝率（ false reject rate）相对提高了27-44%，同时符合每个应用程序的约束条件。

Introduction

(1) 引入KS，其应用场景，目前的难点：它不断地监听特定的关键字来启动语音输入。此关键字定位(KWS)系统运行在移动设备上，因此必须具有较小的内存占用和较低的计算能力。目前谷歌[2]的KWS系统使用深度神经网络(DNN)，它被训练来预测子关键字目标。

(2) 说明DNN比起传统方法的优势：

DNN已被证明优于关键字/填充隐马尔可夫模型系统（Keyword/Filler HMM），这是一种常用的关键字定位技术。
此外，DNN在设备上运行具有吸引力，因为可以通过改变网络中的参数的数量来很容易地调整模型的大小。

(3) 说明CNN比起DNN的优势：而卷积神经网络(CNNs)[3]在过去几年已经在声学建模中流行，在各种小词汇任务[4,5,6]中比dnn有所改进（提升性能且减小模型尺寸）。

第一点：DNN网络忽略输入的拓扑性，即，输入可以以任何（固定的）的顺序呈现，而不影响网络[3]的性能。然而，语音的光谱表示在时间和频率上具有很强的相关性，CNN通过在输入空间局部区域共享的权值，使得cnns可以modeling局部相关性，在其他领域[7]被证明是有益的。
第二点：dnn并没有明确设计来模拟语音信号内的translational方差，这可能是由于不同的说话风格[3]而存在的。更具体地说，不同的说话风格会导致共振峰在频域中被移动。足够大小的DNN其实也可以捕获这种特性，但是需要足够大的训练样本与模型结构。cnn通过平均不同局部时间和频率区域的hidden units的输出来捕获参数少得多的平移不变性。

(4) 本文解决 parameters and multiplies问题的方式：

考虑到参数数量以及乘法运算数量，在[8]中应用较好的那种CNNs在这里就不能用了。因此，我们引入了一种新的CNN架构，它不进行pool，而是strides the filter in frequency，以适应计算约束问题。
其次，我们考虑限制KWS系统的参数总数：通过 pooling in time and frequency。（[5][9]第一次证明在不使用多个卷积块的情况下该方式对语音是有效的。）

(5) 性能评估

在由14个不同短语组成的KWS任务上评估
通过查看每小时1个假报警(FA)的操作下的假拒绝(FR)率来衡量性能。
乘法次数方面：a CNN which strides filters in frequency，FR性能比DNN提高27%。
参数数量方面： a CNN which pools in time and frequency比DNNFR性能提升41%，比传统CNN（pools in frequency only），FR性能提升6%

Keyword Spotting Task

(1) DNN KS [2]三个模块：

特侦提取：40维log梅尔普系数，25ms的窗大小，10msde 移窗，接下来，在每一帧中，我们向左侧堆叠23帧，向右堆叠8帧，并将其输入到DNN中。
DNN模块softmax输出层包含要检测的关键字短语中的每个单词的一个输出目标，再加上一个额外的输出目标，它表示不属于关键字中的任何一个单词的所有帧（在图1中表示为“填充物”）。
利用分布式异步梯度下降[10]，训练网络权值来优化交叉熵准则
在后验处理模块中，将DNN的单个帧级后验得分组合成一个与关键字对应的单一分数。

CNN Architectures

(1) 特征提取和后验处理阶段与第2节保持相同。

(2) CNNs结构介绍：

权重矩阵W,与输入V卷积，局部权重共享，W有n个隐藏单元（即特征图）。
The filter can stride by a non-zero amount s in time and p in frequency. 因此n个特征图的大小均为：

在执行卷积后，一个最大池化层有助于消除由于说话风格、信道失真等而存在的时频空间中的可变性.（池化执行子采样操作，以减少时频空间）我们的池化时无重叠的，[8]证明了有重叠池化的对语音没有什么作用。这样可以减少参数数量。所以n个特征图的大小变为

(3) 典型的卷积结构(两个卷积层)：

输入t*f = 32*40.,,m=20,r=9
卷积乘法是通过s=1和v=1 striding the滤波器跨越时间和频率
传统CNN仅在频率上进行池化：q=3
第二个卷积滤波器的频率滤波器大小为r=4，不执行最大池化。

为了参数数量在250k以内：

我们称该结构为cnn-trad-fpool3（我们的基本模型，下文在他的基础上进行改进）
然而，这种架构的一个主要问题是卷积层中的乘法大量倍增，这在第二层由于三维输入跨越时间、频率和特征映射导致的。
这种类型的体系结构对于功率有限的小足迹KWS任务是不可行的

(4) 将乘法次数限制在500K以内，不限制参数数量：

限制乘数的一个解决方案是有一个卷积层而不是两个层，并且始终有时间滤波器。
cnn-one-fpool3
相比上一个结构，这个在第一层卷积后，乘法次数减少十倍。
以上都是s=1,v=1

在上述的基础上改变v值：

v=4:cnn-one-fstride4 ，50%重叠，
v=8:cnn-one-fstride8 ，无重叠
表3显示，如果我们通过v>1来处理滤波器，我们将减少乘数，并且也可以将隐藏单元n的数量增加到比表2中的cnn-one-fpool3架构大3-4倍。

(5) 将参数数量限制在250K以内,不限制乘法次数：

在4中的操作，固定乘法次数不变时，参数数量远小于250k，但由于我们都知道，参数越多，性能越好[6]，
提高CNN性能的方法是增加特征图。如果我们想增加特征图，但保持参数固定，我们必须探索在时间和频率上的采样。考虑到我们已经在cnn-trad-fpool3中pool了频率，在本节中，我们将探索 sub-sampling in time。
被人也用过时间pooling,但是效果不好，因为他们要提取的信息发生在很短的时间内，时间信息很重要，因此， pooling in time is harmful。
然而在KWS中，关键字单元出现的时间要长得多(即50-100ms)。所以为了减少参数数量，我们可以在时间维度做文章。 sub-sampling、 striding or pooling。

2) Striding in Time

让cnn-trad-fpool3中s>1, cnn-tstride2,cnn-tstride4 and cnn-tstride8.
V = 1,p =1
增加时间滤波的步幅，我们可以增加特征映射的数量n，以保持参数的总数不变。希望时间的子采样不会降低性能，增加特征图可以提高性能。

3) Pooling in Time

通过pooling in time，我们可以增加特征映射的数量n，以保持参数的总数不变。
S=1,v=1

总之就是Striding改变的是s,v, pooling改变的是p,q

Experimental Details

(1) The lower the FR per FA rate is the better.

(2) Pooling in Frequency：比较了不同的q值,q=1到q=2性能增加不少，q=3性能饱和。比起DNN提升41%

(3) Limiting Multiplies：比较了不同的v值,

The best performing system is cnn-one-fstride4, where we stride the frequency filter with 50% overlap but do not pool in frequency.
v=4比v=8好。
如果增加了频率的pooling , 虽然频率上的池化是有用的cnn-trad-fpool3好于cnn-one-fstride4，但它在计算上很昂贵，因此我们必须大幅减少特征图来限制计算。所乘法有限时，用cnn-one-fstride4。
比dnn提升29%左右

(4) Limiting Parameters

cnn-trad-fpool3的基础上改进，改变s值(stride the filter in time)，发现都比cnn-trad-fpool3性能差，
改变p值（pool in time）,cnn-tpool2(p =2)最好。
To our knowledge, this is the first time pooling in time without sub-networks has shown to be helpful for speech tasks.

总结：

（1）限制乘法次数时：

cnn-one-fstride4：一层卷积层，stride the filter in frequency ，但是不pool频率。参数47.6K，乘428.5K
cnn-trad-fpool3：但是性能上，两层卷积既stride the filter in frequency ，也pool频率时更好。参数244.2k，乘9.7M

（2）限制参数数量时：

再此基础：两层卷积既stride the filter in frequency ，也pool频率时更好。参数244.2k，乘9.7M，
cnn-tpool2：对时间进行pool，(p =2)，但不stride the filter in time，参数7.5M，乘9.7M。

私有云超融合服务器人脸关键点检测 keyword 2021云计算十大关键词 always_allow_keyword

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/119124.html

关键词检测任务调研（Keyword Spotting）（4）

摘要：性能在谷歌语音命令数据集上准确率，且参数只有关键字定位是一项旨在检测音频流中预先训练好的单词的任务。其中一个应用就是唤醒词检测。事实上，捕获不同尺度的时间信息是很重要的，因为关键字的特征在时间尺度上通常是不同的。验证集测试集各。目录说明 Small-Footprint Keyword S...

miracledan 2021-09-04 16:45 评论0 收藏0
“人工智能基础”课程笔记

摘要：自然语言处理研究方向文本分类与聚类文章标签和摘要提取文本审核与舆情分析机器翻译阅读理解聊天机器人搜索引擎等。应用文本基本任务预处理向量化分词词性标注文本结构化。 ...

lauren_liuling 2021-09-03 10:29 评论0 收藏0
深入理解 Java 多线程系列（1）——一个简单需求的并行改造 & Java多线程的通信问题

摘要：所以接下来，我们需要简单的介绍下多线程中的并发通信模型。比如中，以及各种锁机制，均为了解决线程间公共状态的串行访问问题。并发的学习门槛较高，相较单纯的罗列并发编程 API 的枯燥被动学习方式，本系列文章试图用一个简单的栗子，一步步结合并发编程的相关知识分析旧有实现的不足，再实现逻辑进行分析改进，试图展示例子背后的并发工具与实现原理。本文是本系列的第一篇文章，提出了一个简单的业务场景...

ruicbAndroid 2019-08-15 17:52 评论0 收藏0
前端做模糊搜索

摘要：到目前为止我们只实现了搜索功能，按更优的体验来讲，在搜索结果中，要优先把相连匹配的放在首位，如关键字，要把结果放到前面。我们先看一下效果图：showImg(https://segmentfault.com/img/remote/1460000015486183?w=199&h=107); 这是搜索关键字cfg时，会自动匹配到config方法同样，我们再看另一个例子 showImg(...

shadowbook 2019-08-22 18:30 评论0 收藏0
自己写VIM语法高亮插件

摘要：语法高亮插件语法高亮插件需要两个文件。语法检测当读取或创建时，将后缀的文件类型设置为，之后使用类型的语法高亮方案进行着色。语法高亮这是文本的重点，该文件告诉该怎么着色。实习之后发现，一切代码活动都局限在一个终端界面了。由于一些安全原因和开发环境的方便，开发都是通过远程ssh到开发机上开发，自然也就只有终端界面了。VNC因为安全原因不让用，所以就别妄想使用Clion等IDE来开发了。在...

宠来也 2019-06-28 10:36 评论0 收藏0