700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 语音唤醒方法 系统 电子设备及计算机可读存储介质与流程

语音唤醒方法 系统 电子设备及计算机可读存储介质与流程

时间:2019-01-06 03:31:28

相关推荐

语音唤醒方法 系统 电子设备及计算机可读存储介质与流程

本申请发明属于语音处理技术领域,尤其涉及一种语音唤醒方法、系统、电子设备及计算机可读存储介质。

背景技术:

随着科学技术的发展,目前各种电子设备普遍具有语音唤醒功能,通过在设备或软件中预置唤醒词,当用户发出该语音指令时,设备便从休眠状态中被唤醒。

传统的语言唤醒方案是通过语音活动检测(Voice Activity Detection,VAD)获取麦克风采集到的音频信号,并根据音频信号统计语音能量,当语音能量大于预设阈值时,则触发处理器启动关键词识别,以判断上述音频信号是否为用户发出的语言指令。这种语音唤醒方案没有考虑到麦克风采集到的音频信号是否是由佩戴人讲话引起的,导致存在误唤醒设备的情况,即当周围的人无意说出关键词时,也会触发唤醒设备,而且在比较嘈杂的环境下,VAD会不断触发引起数字信号处理器进行关键词识别,功耗损失较大。

针对传统的语言唤醒方案存在的上述缺陷,现有的语言唤醒方案在触发处理器进行关键词识别前,一般会先判断麦克风采集到的音频信号是否是由佩戴人讲话引起的。然而,现有技术中一般是通过采用专门的骨传导麦克风或者是其他接触性麦克风提取音频信号,来判断音频信号是否是由佩戴人讲话引起的,由于骨传导麦克风和其他接触性麦克风成本较高,导致整体设备成本偏高。此外,现有技术中也有通过软件算法来判断麦克风音频信号是否是由佩戴人讲话引起的,但是其判断算法一般比较复杂,导致判断本身就比较消耗资源。

综上,传统及现有的语音唤醒方案存在有可能导致误唤醒设备、功率损失较大、设备成本偏高以及判断算法比较复杂,导致判断本身就比较消耗资源的问题。

技术实现要素:

有鉴于此,本发明实施例提供了一种语音唤醒方法、系统、电子设备及计算机可读存储介质,以解决上述语音唤醒方案存在有可能导致误唤醒设备、功耗损失较大、设备成本偏高以及判断算法比较复杂,导致判断本身就比较消耗资源的问题。

本发明实施例的第一方面提供了一种语音唤醒方法,应用于电子设备,所述电子设备包括处理器、重力传感器和麦克风,所述重力传感器和所述麦克风分别与所述处理器电性连接,所述语音唤醒方法包括采用所述处理器执行以下步骤:

若语音活动检测进程监测到所述麦克风采集到的语音信号符合第一预设条件,则触发所述处理器读取所述重力传感器采集到的数据信号;

根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的;

若所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号;或者,

若所述语音信号是由所述用户讲话产生的,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备执行相应的功能。

其中,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的包括:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

其中,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的包括:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

其中,所述若处理器上运行的语音活动检测进程监测到麦克风采集到的语音信号符合第一预设条件之后还包括:

根据关键词识别进程允许的丢字程度和麦克风启动速度判断是否提前开启所述关键词识别进程;

若所述关键词识别进程允许的丢字程度和所述麦克风启动速度符合第二预设条件,则提前开启所述关键词识别进程,此时关键词识别进程和检测语音信号是否由佩戴所述电子设备的用户讲话产生的进程同步进行;

若所述语音信号包含预设的语音指令关键词且所述语音信号是由所述用户讲话产生的,则控制所述电子设备执行相应的功能;或者,

若所述语音信号不包含预设的语音指令关键词或所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号。

其中,所述第二预设条件为所述关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风启动速度小于预设启动速度阈值。

其中,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。

本发明实施例第二方面提供一种语音唤醒系统,应用于电子设备,所述电子设备包括处理器、重力传感器和麦克风,所述重力传感器和所述麦克风分别与所述处理器电性连接,所述语音唤醒系统包括:

语音活动检测单元,用于若语音活动检测进程监测到所述麦克风采集到的语音信号符合第一预设条件,则触发所述处理器读取所述重力传感器采集到的数据信号;

第一判断单元,用于根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的;

执行单元,用于若所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号;或者,用于若所述语音信号是由所述用户讲话产生的,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备执行相应的功能。

其中,所述第一判断单元具体用于:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的;

或者,所述第一判断单元具体用于:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

本发明实施例的第三方面提供了一种电子设备,包括重力传感器、麦克风、存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述重力传感器、所述麦克风及所述存储器均与所述处理器电性连接,所述处理器执行所述计算机程序时实现如上述第一方面实施例中任一项所述语音唤醒方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面实施例中任一项所述语音唤醒方法的步骤。

相对于现有技术的唤醒方案存在有可能导致误唤醒设备、功率损失较大、设备成本偏高的问题,本发明实施例提供的语音唤醒方法、系统、电子设备及计算机可读存储介质,由于在语音活动检测进程监测到麦克风采集到的语音信号符合第一预设条件时,进一步判断上述语音信号是否是有佩戴电子设备的用户讲话产生的,在识别到上述语音信号是所述用户讲话产生时,才开启关键字识别进程,从而可以节省电子设备能耗,且可以避免电子设备的误唤醒;此外,其由于通过电子设备自带的重力传感器采集到的数据信号来判断语音信号是否是由佩戴电子设备的用户讲话产生的,从而无需采用专门的骨传导麦克风或其他接触性麦克风,成本较低,且算法简单实用、准确率高,消耗资源少。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电子设备的结构框图;

图2是本发明实施例一提供的语音唤醒方法的具体实现流程示意图;

图3是本发明实施例二提供的语音唤醒方法的具体实现流程示意图;

图4是本发明实施例三提供的语音唤醒系统的结构示意图;

图5是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、界面切换设备、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

图1是本发明实施例提供的电子设备的结构框图。为了便于说明仅仅示出了与本实施例相关的部分。

参见图1所示,本发明实施例提供的电子设备100包括处理器103、重力传感器101和麦克风102,所述重力传感器101和所述麦克风102分别与所述处理器103电性连接。

其中,所述电子设备100包括但不限于耳机等智能穿戴设备。所述麦克风102为所述电子设备100上自带的普通、低成本类型的麦克风102。所述重力传感器101为所述电子设备100自带的用来判断佩戴状态以及实现单击双击功能的传感器。

基于上述电子设备100的结构,提出本发明的以下实施例。

实施例一

图2是本发明实施例一提供的语音唤醒方法的具体实现流程示意图,该方法应用于图1所示的电子设备100,其执行主体为图1所示电子设备100中的处理器103。参见图2所示,本实施例提供的语音唤醒方法可以包括以下步骤:

步骤S201,若语音活动检测进程监测到所述麦克风102采集到的语音信号符合第一预设条件,则触发所述处理器103读取所述重力传感器101采集到的数据信号。

在一具体实现方式中,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。其中,所述语音活动检测进程及所述麦克风102在电子设备100处于待机状态下时保持开启,当麦克风102采集到语音信号时,将所述语音信号传递至语音活动检测进程,由语音活动检测进程检测所述语音信号的语音能量,在所述语音能量大于所述第二预设能量阈值时,触发所述处理器103读取所述重力传感器101采集到的数据信号。

本实施例中,由于在检测到语音信号的语音能量大于所述第二预设能量阈值时才触发所述处理器103读取所述重力传感器101采集到的数据信号,这样可以避免在嘈杂的环境下,处理器103反复被触发进行判断语音信号是否是由佩戴电子设备100的用户讲话产生的流程,进一步的节省终端的功耗。

步骤S202,根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备100的用户讲话产生的;若所述语音信号不是由所述用户讲话产生的,则进入步骤S203;若所述语音信号是由所述用户讲话产生的,则跳转至步骤S204。

在本实施例中,所述电子设备100佩戴于用户头部,用户在讲话和未讲话时,头部上颌骨和下颌骨的振动频率和幅度不同,导致重力传感器101采集到的数据信号不同,因此通过分析重力传感器101采集到的数据信号可以判断出语音信号是否是由佩戴所述电子设备100的用户讲话产生的。

在一具体实现方式中,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备100的用户讲话产生的包括:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备100的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备100的用户讲话产生的。

在另一具体实现方式中,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备100的用户讲话产生的包括:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备100的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备100的用户讲话产生的。

需要说明的是,上述两种具体实现方式中的所述第一预设能量阈值为预先通过大量训练学习得到,用于区分语音信号是否是由佩戴所述电子设备的用户讲话产生的能量阈值。由于佩戴所述电子设备的用户讲话时,用户头部上颌骨和下颌骨的振动频率和幅度较大,重力传感器101采集到的数据信号的信号能量就偏大,因此在数据信号的信号能量大于所述第一预设能量阈值时,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;反之,若所述信号能量小于或等于所述第一预设能量阈值,则说明用户头部上颌骨和下颌骨的振动频率和幅度均较小,因此说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。所述预设频率范围为人讲话时的语音信号的频率范围。具体的,所述预设频率范围为300~3000Hz,由于人讲话时语音信号的频率段与环境噪音的频率段不同,本实施例中仅统计该预设频率范围内,即人讲话时语音信号所处频率段内的信号能量可以过滤掉其他噪音能量给判断结果带来的影响,使得判断结果更加准确。

步骤S203,忽略所述语音信号。

在本实施例中,若所述语音信号不是由佩戴所述电子设备100的用户讲话引起的,则说明该语音信号是周围环境噪音或其他人讲话产生的语音信号,不是佩戴所述电子设备100的用户输入的语音控制指令,因此忽略该语音信号,不进一步对该语音信号进行关键词识别,这样可以节省电子设备100的功耗。

步骤S204,启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备100执行相应的功能。

在本实施例中,若所述语音信号是由佩戴所述电子设备100的用户讲话引起的,则说明该语音信号可能是用户输入的语音控制指令,因此进一步的启动关键词识别进程,识别所述语音信号中是否包含预设的语音指令关键词,若包含预设的语音指令关键词,则控制电子设备100执行相应的语音控制功能;反之,若不包含预设的语音指令关键词,则说明该语音信号是用户讲话产生的,但是不是语音控制指令,因此忽略该语音信号,不唤醒电子设备100。

以上可以看出,本实施例提供的语音唤醒方法由于在语音活动检测进程监测到麦克风102采集到的语音信号符合第一预设条件时,进一步判断上述语音信号是否是由佩戴电子设备100的用户讲话产生的,在识别到上述语音信号是由所述用户讲话产生时,才开启关键字识别进程,从而可以节省电子设备100能耗,且可以避免电子设备100的误唤醒;此外,其由于通过电子设备100自带的重力传感器101采集到的数据信号来判断语音信号是否是由佩戴电子设备100的用户讲话产生的,从而无需采用专门的骨传导麦克风或其他接触性麦克风,成本较低,且算法简单实用、准确率高,消耗资源少。

实施例二

图3是本发明实施例二提供的语音唤醒方法的具体实现流程示意图,该方法应用于图1所示的电子设备100,其执行主体为图1所示电子设备100中的处理器103。参见图3所示,本实施例提供的语音唤醒方法可以包括以下步骤:

步骤S301,判断语音活动检测进程监测到所述麦克风102采集到的语音信号是否符合第一预设条件,若符合第一预设条件,则同时进入步骤S302-1和步骤S302-2。该步骤的具体实现方式与实施例一的实现方式相同,在此不再赘述。

步骤S302-1,根据关键词识别进程允许的丢字程度和麦克风102启动速度判断是否提前开启所述关键词识别进程;若所述关键词识别进程允许的丢字程度和所述麦克风102启动速度符合第二预设条件,则进入步骤S303-1。

步骤S303-1,开启所述关键词识别进程,识别所述语音信号中是否包含预设的语音指令关键词。

其中,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。其中,所述语音活动检测进程及所述麦克风102在电子设备100处于待机状态下时保持开启,当麦克风102采集到语音信号时,将所述语音信号传递至语音活动检测进程,由语音活动检测进程检测所述语音信号的语音能量,在所述语音能量大于所述第二预设能量阈值时,触发所述处理器103读取所述重力传感器101采集到的数据信号。

所述第二预设能量阈值是为了避免在嘈杂环境下,处理器被反复触发进行判断语音信号是否是由佩戴电子设备的用户讲话的流程而预先设置的能量阈值。由于在检测到语音信号的语音能量大于所述第二预设能量阈值时才触发所述处理器103读取所述重力传感器101采集到的数据信号,这样可以避免在嘈杂的环境下,处理器103反复被触发进行判断语音信号是否是由佩戴电子设备100的用户讲话产生的流程,进一步的节省终端的功耗。

所述第二预设条件为所述关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风102启动速度小于预设启动速度阈值。

在本实施例中,当所述关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风102启动速度小于预设启动速度阈值时,则进入到步骤S303-1提前开启关键词识别进程,这样可以避免由于麦克风102启动速度过慢,若关键词识别进程不提前启动,导致丢字太多,即无法及时采集到用户发出的语音信号,进而导致无法识别出完整的语音控制指令的情况;相反,若关键词识别进程允许的丢字程度大于或等于预设丢字程度或麦克风102启动速度大于或等于预设启动速度阈值,则出现语音控制指令丢失情况的可能性较小,所以不提前开启关键词识别进程,这种情况的唤醒流程与实施例一提供的语音唤醒流程相同,因此在此不再赘述。

步骤S302-2,触发所述处理器103读取所述重力传感器101采集到的数据信号;

步骤S303-2,根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备100的用户讲话产生的。需要说明的是,步骤S302-2和步骤S303-2的实现方式由于与实施例一中对应步骤的实现方式相同,因此在此不再赘述。

步骤S304,若所述语音信号包含预设的语音指令关键词且所述语音信号是由所述用户讲话产生的,则控制所述电子设备100执行相应的功能。

步骤S305,若所述语音信号不包含预设的语音指令关键词或所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号。

在本实施例中,当语音信号同时满足包含预设的语音指令关键词和是由佩戴所述电子设备100的用户讲话产生的,才控制所述电子设备100执行相应的语音控制功能,在语音信号不满足上述两个条件中任一条件时,则忽略所述语音信号,这样可以避免电子设备100的误唤醒。

以上可以看出,本实施例提供的语音唤醒方法同样可以避免电子设备100的误唤醒,且由于通过电子设备100自带的重力传感器101采集到的数据信号来判断语音信号是否是由佩戴电子设备100的用户讲话产生的,从而无需采用专门的骨传导麦克风或其他接触性麦克风,成本较低,且算法简单实用、准确率高,消耗资源少;此外,相对于上一实施例,本实施例提供的语音唤醒方法由于在关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风102启动速度小于预设启动速度阈值时,提前开启所述关键词识别进程,这样可以避免出现由于麦克风102启动速度过慢,若关键词识别进程不提前启动,导致丢字太多,无法识别出完整的语音控制指令的情况。

实施例三

图4是本发明实施例三提供的语音唤醒系统的结构示意图,该系统应用于图1所述的电子设备100,运行在图1所述电子设备100的处理器103中。为了便于说明仅仅示出了与本实施例相关的部分。

参见图4所示,本实施例提供的语音唤醒系统4包括:

语音活动检测单元41,用于若语音活动检测进程监测到所述麦克风102采集到的语音信号符合第一预设条件,则触发所述处理器103读取所述重力传感器101采集到的数据信号;其中,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。

第一判断单元42,用于根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备100的用户讲话产生的;

执行单元43,用于若所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号;或者,用于若所述语音信号是由所述用户讲话产生的,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备100执行相应的功能。

可选的,所述第一判断单元42具体用于:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备100的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备100的用户讲话产生的;

其中,所述第一预设能量阈值为预先通过大量训练学习得到,用于区分语音信号是否是由佩戴所述电子设备的用户讲话产生的能量阈值。由于佩戴所述电子设备的用户讲话时,用户头部上颌骨和下颌骨的振动频率和幅度较大,重力传感器101采集到的数据信号的信号能量就偏大,因此在数据信号的信号能量大于所述第一预设能量阈值时,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;反之,若所述信号能量小于或等于所述第一预设能量阈值,则说明用户头部上颌骨和下颌骨的振动频率和幅度均较小,因此说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

或者,所述第一判断单元42具体用于:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备100的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备100的用户讲话产生的。

可选的,所述语音唤醒系统还包括:

第二判断单元44,用于根据关键词识别进程允许的丢字程度和麦克风102启动速度判断是否提前开启所述关键词识别进程;

所述执行单元43,还用于:

若所述关键词识别进程允许的丢字程度和所述麦克风102启动速度符合第二预设条件,则提前开启所述关键词识别进程,此时关键词识别进程和检测语音信号是否由佩戴所述电子设备100的用户讲话产生的进程同步进行;

若所述语音信号包含预设的语音指令关键词且所述语音信号是由所述用户讲话产生的,则控制所述电子设备100执行相应的功能;或者,

若所述语音信号不包含预设的语音指令关键词或所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号。

可选的,所述第二预设条件为所述关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风102启动速度小于预设启动速度阈值。

可选的,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。其中,所述第二预设能量阈值是为了避免在嘈杂环境下,处理器被反复触发进行判断语音信号是否是由佩戴电子设备的用户讲话的流程而预先设置的能量阈值。由于在检测到语音信号的语音能量大于所述第二预设能量阈值时才触发所述处理器103读取所述重力传感器101采集到的数据信号,这样可以避免在嘈杂的环境下,处理器103反复被触发进行判断语音信号是否是由佩戴电子设备100的用户讲话产生的流程,进一步的节省终端的功耗。

需要说明的是,本发明实施例提供的上述系统的各个单元,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

本领域普通技术人员可以理解,本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。

实施例四

图5是本发明实施例四提供的电子设备100的结构示意图。为了便于说明仅仅示出了与本实施例相关的部分。

参见图5所示,本实施例提供的电子设备100包括重力传感器101、麦克风102、存储器104、处理器103及存储在所述存储器104中并可在所述处理器103上运行的计算机程序105,所述重力传感器101、所述麦克风102及所述存储器104均与所述处理器103电性连接,所述处理器103执行所述计算机程序105时实现上述实施例一或实施例二所述语音唤醒方法的步骤。其中,所述电子设备100包括但不限于耳机等智能穿戴设备。

本实施例的电子设备100与上述实施例一或实施例二的语音唤醒方法属于同一构思,其具体实现过程详细见方法实施例,且方法实施例中的技术特征在本设备实施例中均对应适用,这里不再赘述。

本领域普通技术人员可以理解,本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。

实施例五

本发明实施例五提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例一或实施例二所述语音唤醒方法的步骤。

本实施例的计算机可读存储介质与上述实施例一或实施例二的语音唤醒方法属于同一构思,其具体实现过程详细见方法实施例,且方法实施例中的技术特征在本设备实施例中均对应适用,这里不再赘述。

本领域普通技术人员可以理解,本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器103,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

技术特征:

1.一种语音唤醒方法,应用于电子设备,所述电子设备包括处理器、重力传感器和麦克风,所述重力传感器和所述麦克风分别与所述处理器电性连接,其特征在于,所述语音唤醒方法包括采用所述处理器执行以下步骤:

若语音活动检测进程监测到所述麦克风采集到的语音信号符合第一预设条件,则触发所述处理器读取所述重力传感器采集到的数据信号;

根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的;

若所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号;或者,

若所述语音信号是由所述用户讲话产生的,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备执行相应的功能。

2.如权利要求1所述的语言唤醒方法,其特征在于,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的包括:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

3.如权利要求1所述的语音唤醒方法,其特征在于,所述根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的包括:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

4.如权利要求1所述的语音唤醒方法,其特征在于,所述若处理器上运行的语音活动检测进程监测到麦克风采集到的语音信号符合第一预设条件之后还包括:

根据关键词识别进程允许的丢字程度和麦克风启动速度判断是否提前开启所述关键词识别进程;

若所述关键词识别进程允许的丢字程度和所述麦克风启动速度符合第二预设条件,则提前开启所述关键词识别进程,此时关键词识别进程和检测语音信号是否由佩戴所述电子设备的用户讲话产生的进程同步进行;

若所述语音信号包含预设的语音指令关键词且所述语音信号是由所述用户讲话产生的,则控制所述电子设备执行相应的功能;或者,

若所述语音信号不包含预设的语音指令关键词或所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号。

5.如权利要求4所述的语音唤醒方法,其特征在于,所述第二预设条件为所述关键词识别进程允许的丢字程度小于预设丢字程度阈值且所述麦克风启动速度小于预设启动速度阈值。

6.如权利要求1所述的语音唤醒方法,其特征在于,所述第一预设条件为所述语音信号的语音能量大于第二预设能量阈值。

7.一种语音唤醒系统,应用于电子设备,所述电子设备包括处理器、重力传感器和麦克风,所述重力传感器和所述麦克风分别与所述处理器电性连接,其特征在于,所述语音唤醒系统包括:

语音活动检测单元,用于若语音活动检测进程监测到所述麦克风采集到的语音信号符合第一预设条件,则触发所述处理器读取所述重力传感器采集到的数据信号;

第一判断单元,用于根据所述数据信号判断所述语音信号是否是由佩戴所述电子设备的用户讲话产生的;

执行单元,用于若所述语音信号不是由所述用户讲话产生的,则忽略所述语音信号;或者,用于若所述语音信号是由所述用户讲话产生的,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备执行相应的功能。

8.如权利要求7所述的语言唤醒系统,其特征在于,所述第一判断单元具体用于:

对所述数据信号进行时频转换,筛选出频率在预设频率范围内的数据信号;

在频域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若所述信号能量大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的;

或者,所述第一判断单元具体用于:

对所述数据信号进行带通滤波处理,筛选出频率在预设频率范围内的数据信号;

在时域上统计频率在所述预设频率范围内的数据信号的信号能量;

判断所述信号能量是否大于第一预设能量阈值;

若大于所述第一预设能量阈值,则说明所述语音信号是由佩戴所述电子设备的用户讲话产生的;

若所述信号能量小于或等于所述第一预设能量阈值,则说明所述语音信号不是由佩戴所述电子设备的用户讲话产生的。

9.一种电子设备,包括重力传感器、麦克风、存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述重力传感器、所述麦克风及所述存储器均与所述处理器电性连接,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音唤醒方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音唤醒方法的步骤。

技术总结

本发明实施例公开了一种语音唤醒方法、系统、电子设备及计算机可读存储介质,涉及智能设备技术领域。其中方法包括:若语音活动检测进程监测到麦克风采集到的语音信号符合第一预设条件,则触发处理器读取重力传感器采集到的数据信号;根据数据信号判断语音信号是否是由佩戴电子设备的用户讲话产生的;若否,则忽略所述语音信号;或者,若是,则启动关键词识别进程,若识别到所述语音信号包含预设的语音指令关键词,则控制所述电子设备执行相应的功能。本发明实施例可以节省电子设备能耗,且可以避免电子设备的误唤醒;此外,其无需采用专门的骨传导麦克风或其他接触性麦克风,成本较低,且算法简单实用、准确率高,消耗资源少。

技术研发人员:李波;夏波;詹昌寿

受保护的技术使用者:湖南国声声学科技股份有限公司;湖南国声声学科技股份有限公司深圳分公司

技术研发日:.06.06

技术公布日:.09.20

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。