700字范文 > 一种端到端无监督深度支撑网络的声学异常检测方法与流程

一种端到端无监督深度支撑网络的声学异常检测方法与流程

时间：2021-01-05 13:28:24

技术领域：

本发明属于声学频率谱的无损检测技术领域，具体涉及一种端到端无监督深度支撑网络的声学异常检测方法。

背景技术：

：

基于声学异常检测分析技术应用场景广泛，包括食品包装检测、发音康复治疗、喉镜检测、工业生产检测等。常用的声学异常检测算法被看作为无监督学习问题，即异常声学样本在先验情况下被当作未知的样本，训练数据大部分是正常数据；在测试阶段，区别于训练数据分布的声学数据被识别为异常数据；声学异常检测分析技术包括卷积自编码器网络联合单类支撑向量机(cae+ocsvm)、递归生成对抗网络(mad-gan)、孤立森林(isolationforest)等方法。现实世界应用场景中，声学信号呈现出维度高、数量大的特点，增加了建模难度，传统的基于浅层学习的异常检测技术往往存在泛化性有限的瓶颈。

当前，以卷积、递归神经网络为代表的深度学习技术已被证明具备非常强的特征学习表达能力，并在模式识别，目标检测领域中已获得了令人信服的结果。为了将深度学习的优势转移到声异常检测领域中，许多深度生成模型在异常检测领域展现出了不错的效果，但这些模型主要依赖于启发式的生成信号与原始信号的恢复误差判断声音数据是否异常，而直接以异常检测为目标方程的深度模型相对较少。

浙江大学在发明专利文献“一种基于深度学习的声音异常检测系统”(申请号：10810077.3)及“一种基于深度学习的电梯内异常行为检测系统”(申请号：10833881.3)中，采用深度生成学习模型学习训练集中声学信号的频谱特征，生成声学异常检测模型，并对输入的测试集声学信号进行表达生成，通过对比生成信号与原始信号，对测试的声学信号进行异常检测。然而，以上文献方法的基本原理皆是针对生成学习模型对于原始信号的恢复进行展开讨论的，并非将深度学习模型端到端的应用于解决声学异常检测问题当中。因此，我们提出了端到端的无监督深度支撑神经网络学习模型，直接对声学异常检测问题进行建模。首先，与常规的分类问题不同的是，深度支撑网络主要目标是映射声学样本到能够表达整个样本空间的最小超球面上；其次，通过计算得到的超球面中心与网络学习输出的距离来定义声音样本的异常分数。本专利提出端到端的无监督深度支撑网络结构检测声学异常信号，根据学习到的优化权重和超球面半径判断测试数据集的异常度，提升分析精度。

技术实现要素：

：

针对现有技术的上述不足，本发明提出了一种端到端无监督深度支撑网络的声学异常检测方法。该方法通过特征学习网络学习声学信号的梅尔频谱特征，并基于学习到的频谱特征，迁移训练深度检测网络，提高检测效率。

本发明通过以下技术手段解决上述问题：

一种端到端无监督深度支撑网络的声学异常检测方法，其网络结构特点在于，对能够学习到的声学特征的支撑超平面(由超球中心和超球半径构成)进行建模，若声音数据集分布在支撑超球平面外，则将声音判断为异常信号；深度支撑网络包括两个功能网络，特征学习网络和深度检测网络，值得注意的是这两个功能网络的若干层网络结构是共享的，能够互相迁移的；在验证阶段，通过验证声音数据计算最优的异常阈值；在测试阶段，根据测试声音计算得到的异常预测分数，输出定量分析结果。包括如下步骤：

s1.由于声学信号的时域信号为长程高维的一维度信号，很难直观总结、归纳出连续信号的变化规律，连续的时域信号转化为梅尔谱的频率谱图信号；

s2.将有大量正样本的梅尔谱样本数据集作为训练集，将混有正、负样本的梅尔谱样本作为验证集和测试集；

s3.构建深度支撑网络模型：

s3-1.初始化一个由全连接层、卷积层、池化层的卷积深度检测网络，并计算初始化的超球中心参数c和半径r。

s3-2.构建一个特征学习网络，其中自编码部分的网络结构与s3-1中的深度检测器部分结构完全一样，对正样本梅尔谱信号进行特征学习。特征学习网络由卷积层—池化层—上采样层所构成，卷积层为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为4～16，下采样层为2倍下采样，上采样层为2倍上采样，隐含编码维度为32，除输出层外非线性激励函数为leakyrelu；

s3-3.构建一个深度检测网络，使用已经训练好的s3-2的学习特征网络中编码器部分权重、偏置变量进行网络迁移，并对深度检测网络进行训练，达到提高网络学习效率的目的。该网络依次由：卷积层—池化层—线性层构成，其中卷积层和池化层延续s3-2中自编码器的编码部分网络结构，卷积层为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为8～16，池化层为2倍下采样，输出层为32个神经元，计算输出结果与超球中心c的距离，定量分析异常值，激励函数为leakyrelu。

值得注意的是步骤s3-3中所描述的迁移训练深度检测网络，由于模型的训练复杂度与网络层数是正相关的，且步骤s3-1中训练的特征学习网络已经包含了大量的声学特征成分。由于模型学习的场景相差不大，故我们可以考虑将特征学习网络中编码器的特征提取层部分所学习到的权重、偏置信息迁移到深度检测网络中，达到提高网络学习效率的目的。

s4.构建深度支撑网络的损失函数：

s4-1.特征学习网络的损失函数lae采用了最小二乘法，等于训练集网络恢复的梅尔谱图信号(predae)与原始谱图信号(x)差值的平方和：

其中ntrain为训练样本数。

s4-2.深度检测网络的损失函数lde为软间隔铰链损失函数，与超球面中心c和半径r相关数，允许部分异常样本落于超球面内：

其中参数μ控制异常样本在超球内和球外之间的比率。

另外随着深度检测网络的损失，网络的权重、偏置以及超球半径r会随之更新：

其中quantile函数表示为优化的超球半径r大小取决于样本点与超球中心距离的前百分之1-μ。

s5.迁移训练深度检测网络：

采用梯度下降方法，利用s4-1中预训练的特征学习网络包含的大量的声学特征成分，将特征学习网络的编码器部分所学习到的权重、偏置信息迁移到深度检测网络中，达到提高网络学习效率的目的；

s6.异常值的检测。

本发明对比现有技术具有以下优势：

本发明根据支撑声学特征的超球面中心、半径等超参数，设计了端到端的无监督深度支撑网络模型；该模型利用迁移学习，有效的将特征学习以及深度检测网络结合起来，降低了计算成本；使用了精确率，召回率以及f1判决尺度，利用验证集学习确定最优的异常阈值，减少了算法的人为干预性，提升了声音异常检测分析的精度。

附图说明：

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明流程图；

图2是深度支撑网络的结构图；

图3(a)是采用深度支撑网络得到的小罐茶声学预测异常值的roc曲线；

图3(b)是采用递归生成对抗网络(mad-gan)得到的小罐茶声学预测异常值的roc曲线；mad-gan网络的特点是针对一维度的时间序列信号使用了lstm结构作为层与层之间的连接，构建了生成对抗网络，利用生成算子训练伪样本，判决算子用来判别样本的真伪，同时输出定量分析结果；

图3(c)是采用卷积自编码器网络和单类支撑向量机(csae-ocsvm)的联合学习模型得到的小罐茶声学预测异常值的roc曲线；csae-ocsvm网络的特点是利用卷积自编码器网络学习样本数据的特征，再利用oc-svm模型实现异常检测的目的。

具体实施方式：

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例为利用电磁敲击信号测定“小罐茶”是否有漏气的情况。如图1所示，一种端到端无监督深度支撑网络的声学异常检测定量分析方法，具体步骤如下：

s1.我们收集到的声音数据是根据“小罐茶”在检测平台高速旋转过程中所产生的声音。由于检测平台是带有一定转速的，故我们需要剔除低转速的一些声音样本。一共测定了484条经过电磁敲击小罐茶的瓶盖所收集到的声音，其中正常小罐茶声音样本298条，有异常的小罐茶声学样本186条。

s2.构建样本训练集与预测集：

s2-1.随机取160条正常小罐茶敲击声音样本作为训练集，即160个正标签样本；130条正常敲击声音，116条异常敲击声音作为验证集；剩余8条正常敲击声音，70条异常敲击声音作为测试集，用于评价模型精度，同时也作为无标签样本，用于无监督的训练；

s2-2.将一维度的声学信号进行分帧、加窗、傅里叶变换转化为梅尔频谱信号，其中一共划分了28个梅尔谱段，傅里叶窗口大小为2048，连续帧分割长度为33。

s3.构建特征学习网络：

s3-1.构建深度支撑网络中的特征学习网络,该网络由编码器和解码器部分组成，包括了卷积层、池化层、上采样，卷积层为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为4～16，池化层为两倍下采样，上采样层为2倍上采样，隐含编码维度为32，除输出层外非线性激励函数为leakyrelu，具体网络结构展示在图2；

特征学习网络中编码器部分具体参数为：

第一层卷积层卷积核个数为16,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第二层池化层池化尺寸为2×2，填充方式为same；

第三层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第四层池化层池化尺寸为2×2，填充方式为same；

第五层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第六层池化层池化尺寸为2×2，填充方式为same；

第七层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第八层池化层池化尺寸为2×2，填充方式为same；

深度自编码器中解码器部分具体参数为：

第九层卷积层卷积核个数为4,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第十层上采样层尺寸为2×2，填充方式为same；

第十一层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第十二层上采样层尺寸为2×2，填充方式为same；

第十三层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第十四层上采样层尺寸为2×2，填充方式为same；

第十五层卷积层卷积核个数为16,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第十六层上采样层尺寸为2×2，填充方式为same；

第十七层卷积层卷积核个数为1,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

s3-2.构建一个深度检测网络，该网络由9个结构层组成，包括了卷积层、池化层、线性层构成，其中卷积层和池化层延续s3-2中自编码器的编码部分网络结构，卷积层为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为8～16，池化层为2倍下采样，输出层为32个神经元，计算输出结果与超球中心c的距离，即定量分析预测值，除输出层外非线性激励函数为leakyrelu，具体网络结构展示在图2。

深度检测网络具体参数为：

第一层卷积层卷积核个数为16,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第二层池化层池化尺寸为2×2，填充方式为same；

第三层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第四层池化层池化尺寸为2×2，填充方式为same；

第五层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第六层池化层池化尺寸为2×2，填充方式为same；

第七层卷积层卷积核个数为8,卷积核大小为3×3，卷积步长为1×1，填充方式为same；

第八层池化层池化尺寸为2×2，填充方式为same；

第九层线性层输出神经元个数为32。

s4.构建支撑网络的损失函数：

s4-1.特征学习网络的损失函数lae采用了最小二乘法，等于网络恢复的每一幅梅尔谱图信号(predae)与原始谱图信号(x)差值的平方和：

其中ntrain为训练样本数。

s4-2.深度检测网络的损失函数lde为铰链损失函数，与超球面中心c和半径r一起构成了软间隔铰链损失，即允许部分异常样本落于超球面内：

其中参数μ控制异常样本在超球内和球外之间的比率。

另外随着深度检测网络的损失，网络的权重、偏置以及超球半径r会随之更新：

其中quantile函数表示为优化的超球半径r大小取决于样本点与超球中心距离的前百分之1-μ。

s5.训练深度支撑网络：

采用梯度下降方法，训练深度检测网络，优化器采用“adam”优化器，学习率为0.0001，训练步数设置为150，样本输入批量值为200。

s6.确定异常阈值以及采用训练好的深度检测网络对测试集数据进行异常打分。

我们利用精确度，预测正确和预测错误衡量异常阈值。首先确定一个初始化的阈值ε，按照f1判决尺度进行不断更新，计算出最优异常检测阈值ε*为21。利用深度检测网络给测试数据集打分，检测分数小于最优异常阈值的声音样本判定为正常样本；检测分数超过异常阈值的声音样本判定为异常样本。将得到的预测标签与测试标签进行比较对比，并绘制出相应roc曲线以及计算roc曲线下方的auc面积值。其中深度支撑网络的roc曲线图展示在图3(a)。其他对比模型递归生成对抗网络(mad-gan)以及卷积自编码器网络联合单类支撑向量机(卷积自编码器+ocsvm)的roc曲线图展示在图3(b),(c)。

由计算结果可见，深度支撑网络预测的声学准确度，其auc面积达到了1.00，即识别出了全部的正常和异常的“小罐茶”。其他对比模型递归生成对抗网络，卷积自编码器+ocsvm模型的声学准确度，其auc面积分别为0.5185，0.3996。而本发明方法由于采用了端到端的无监督督深度学习，对支撑声学特征的超平面进行建模，使预测集精度得到了显著提升。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

技术特征：

1.一种端到端无监督深度支撑网络的声学异常检测方法，其特征在于，包括如下步骤：

s1.将连续的时域声学信号转化为梅尔频谱的声学谱图信号；

s2.划分样本训练集ntrain、验证集nvad与测试集ntest：将大量正样本标签的梅尔谱样本数据集作为训练集，同时混有正样本和负样本标签的数据集作为验证集和测试集；

s3.构建深度支撑网络模型：

s3-1.初始化一个由全连接层、卷积层、池化层的卷积深度检测网络，并计算初始化能够包围声音信号的支撑超球中心参数c和半径r；

s3-2.构建一个由卷积层、池化层、上采样层组成的特征学习网络，网络结构类似于深度自编码器网络，其中编码器部分的网络结构与s3-1中的深度检测器部分结构完全一样；网络的每层会加入dropout机制，抑制网络的过拟合现象；特征学习网络对正样本梅尔谱信号进行特征的学习，并计算得到特征学习网络中编码器和解码器的权重和偏置；

s3-3.对特征学习网络中的编码器中权重，偏置变量进行网络迁移到深度检测网络中，并对深度检测网络进行训练，更新网络损失函数和超球面半径r；受类似支撑向量机模型的“软间隔”概念所启发，深度支撑网络模型中的超球半径设置为“软半径”，即学习得到的深度检测网络学习出的网络输出与超球中心c的距离不仅仅限制为半径r，即允许一定比率的异常信号也落入支撑超球内；利用参数μ,深度支撑网络控制小于半径的负样本信号的比例；

s4.构建损失函数：

s4-1.对于s3-2中特征学习网络的损失函数lae，采用了最小二乘形式，即其中特征学习网络恢复的信号(predae)与原始输入声学信号(x)之间差值的平方和：

s4-2.对于s3-3中深度检测网络的输出损失函数(lde)为软间隔铰链损失形式，与超球半径r，软间隔样本比率μ，网络输出predde与超球中心c的距离有关：

其中参数μ控制异常样本在超球内和球外之间的比率；另外随着深度检测网络的损失，网络的权重、偏置以及超球半径r会随之更新，超球半径更新公式为：

其中quantile函数表示为优化的超球半径r大小等于样本点与超球中心距离的前百分之1-μ；

s5.利用训练好的深度检测网络在声音验证数据集上进行验证，确定最优异常阈值ε*；

s6.利用训练好的深度检测网络对声音测试数据进行打分；当分数小于异常阈值ε*的测试声音，判断为正常样本；当分数大于异常阈值ε*的测试声音，判断为异常样本。

2.根据权利要求1所述的端到端无监督深度支撑网络的声学异常检测方法，其特征在于，步骤s2中构建样本训练集与预测集步骤包括：

将声音样本划分为训练集，验证集和测试集样本，其中训练集样本均为正样本，验证、测试集均混有部分负样本；

将声学信号进行分帧、加窗、傅里叶变换转化为梅尔频谱。

3.根据权利要求1所述的端到端无监督深度支撑网络的声学异常检测方法，其特征在于，特征学习网络的网络结构依次由：卷积层—池化层——上采样层所构成，卷积操作为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为4～16，池化层为2倍下采样，上采样层为2倍上采样，隐含编码维度为32，除输出层外非线性激励函数为leakyrelu。

4.根据权利要求1所述的端到端无监督深度支撑网络的声学异常检测方法，其特征在于，步骤s3-3中深度检测网络依次由：卷积层—池化层—线性层构成，其中卷积层和池化层延续s3-2特征学习网络的编码部分网络结构，卷积操作为二维卷积，卷积核尺寸为3×3，卷积核个数取值范围为8～16，池化层为2倍下采样，输出层为32个神经元，计算输出结果与超球中心c的距离，即定量分析预测值，除输出层外非线性激励函数为leakyrelu。

5.根据权利要求1所述的端到端无监督深度支撑网络的声学异常检测方法，其特征在于，步骤s4-1、s4-2中深度支撑网络主要有两个损失函数，分别为特征学习网络和深度检测损失函数，其中特征学习网络的损失函数为输入声学梅尔谱和经过网络学习恢复的梅尔谱信号的均方误差之和：

深度异常检测网络的损失函数为超球中心c和半径r相关的软间隔铰链损失函数，即允许部分异常样本落于超球面内：

其中参数μ控制异常样本在超球内和球外之间的比率；

另外随着深度检测网络的损失，网络的权重、偏置以及超球半径r会随之更新：

其中quantile函数表示为优化的超球半径r大小等于样本点与超球中心距离的前百分之1-μ。

6.根据权利要求1所述的端到端无监督深度支撑网络的声学异常检测方法，其特征在于，步骤s6中利用验证集合不断更新异常阈值ε，利用了精确率，召回率以及f1判决尺度确定最优的阈值ε*：

其中，tp和fp分别表示预测正确和预测错误；针对最优阈值ε*的计算，先确定一个初始化的阈值ε，按照规定的范围进行不断遍历，判断的标准是计算得到的f1判决尺度最大。

技术总结

本发明公开了一种端到端无监督深度支撑网络的声学异常检测方法，其步骤如下：将声学信号转化为梅尔频谱的声学谱图信号；将搜集到的声音信号划分为训练、验证、测试集，其中验证集负责用来确定异常阈值；构建无监督的深度支撑网络，包括特征学习网络负责提取声学特征，深度检测网络负责判决声音信号是否异常；构建深度支撑网络的损失函数，包括特征学习的最小二乘损失函数，以及深度检测网络的软间隔铰链损失函数；训练验证集，计算最优检测阈值；采用训练好的深度支撑网络定量计算声学的异常值。本发明降低了计算成本，使用了精确率、召回率以及F1值作为判决尺度，减少了算法的人为干预性，提升了高光谱定量分析的精度。

技术研发人员：胡睿晗;周松斌;刘忆森;韩威;李昌;刘伟鑫;邱泽帆

受保护的技术使用者：广东省智能制造研究所

技术研发日：.08.16

技术公布日：.01.17

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。