700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 语音识别控制方法及装置 计算机设备和计算机存储介质与流程

语音识别控制方法及装置 计算机设备和计算机存储介质与流程

时间:2018-04-27 09:52:39

相关推荐

语音识别控制方法及装置 计算机设备和计算机存储介质与流程

本发明涉及语音识别技术领域,特别是涉及一种语音识别控制方法及装置、计算机设备和计算机存储介质。

背景技术:

这里的陈述仅提供与本申请有关的背景信息,而不必然地构成现有技术。

随着语音技术的快速发展,以语音为入口的物联网设备控制解决方案发展迅速。然而现阶段的语音控制智能家居解决方案语音识别准确度有限,在控制智能家居开启工作时,容易误触发同类设备同时打开,例如,控制客厅中全部的灯打开,语音识别控制的精度低,误差大,浪费资源,不能达到用户的要求。

技术实现要素:

基于此,有必要针对语音识别控制精度低的问题,提供一种语音识别控制方法及装置、计算机设备和计算机存储介质。

本发明实施例提供了一种语音识别控制方法,包括:

获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

获取控制范围内的设备列表,设备列表中包括设备词和设备词对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,且设备昵称词的优先级高于设备类别词的优先级;

对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词;

根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

在其中一个实施例中,在对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词的步骤之后,且在根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词的步骤之前还包括:

根据从初始语音文本中提取的设备词和控制词以及预存的词义标准化词典,对初始语音文本中的设备词和控制词进行标准化,获得标准化的设备词和标准化的控制词,并用标准化的设备词和标准化的控制词对应替代初始语音文本中的设备词和控制词得到标准化语音文本;

更新初始语音文本为标准化语音文本。

在其中一个实施例中,对初始语音文本进行分词处理的步骤之前还包括:

根据初始语音文本进行领域意图识别;

若判定为设备控制领域,则执行对初始语音文本进行分词处理的步骤。

在其中一个实施例中,设备列表中还包括设备位置信息;初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令的步骤之前还包括:

根据设备列表中的设备位置信息匹配目标设备词对应的设备位置信息;

若根据目标设备词所对应的设备位置信息判定目标设备词对应的设备不在控制范围内,则生成并发送第一类回复语,第一类回复语用于提示语音控制的设备不在控制范围内。

在其中一个实施例中,语音识别控制方法还包括:

若根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表未生成控制指令,则生成并发送第二类回复语,第二类回复语用于提示用户提供新的语音;

获取用户提供的新的语音;

将新的语音转换为新的语音文本;

将初始化语音文本和新的语音文本融合,生成融合后的语音文本;

并将初始语音文本更新为融合后的语音文本,执行对初始语音文本进行分词的步骤。

在其中一个实施例中,对初始语音文本进行分词的步骤之前还包括:

按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各错误词和正确词,以正确词替换错误词的方式,对初始语音文本进行纠正并更新,以生成纠正语音文本;

更新初始语音文本为纠错语音文本;

其中,在初始语音文本中处于同一位置的词只纠正和更新一次;纠错词表包括多个键值对,键为错误词,值为正确词。

在其中一个实施例中,纠错词表中的各错误词由长至短排列;

按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各错误词和正确词,以正确词替换错误词的方式,对初始语音文本进行纠正并更新,以生成纠正语音文本的步骤包括:

将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词;其中,目标位置的初始值为纠错词表的表头位置;

查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词;

将初始语音文本更新为替换后形成的文本,并将目标位置更新为下一表格位置,执行将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词的步骤;

将目标位置更新为纠错词表的表尾位置后所更新替换形成的语音文本作为纠正语音文本。

在其中一个实施例中,将纠错词表中目标位置的错误词与初始语音文本进行比对,确定初始语音文本中的目标错误词的步骤包括步骤:

获取纠错词表中的各错误词,并将各错误词转化为拼音字符串;

将初始语音文本转换为待纠正拼音字符串;

将纠错词表中目标位置的错误词所转化的拼音字符串与待纠正拼音字符串比对,得到多个拼音字符交集;

确定各拼音字符交集中的最大子字符串为目标错误词。

在其中一个实施例中,在确定各拼音字符交集中的最大子字符串为目标错误词的步骤之后还包括:

记录目标错误词对应的拼音字符在待纠正拼音字符串中的位置信息;

查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词的步骤包括:

若判定当前记录的位置信息与前一次记录的位置信息不同,则查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词。

一种语音识别控制装置包括:

语音文本获取模块,获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

设备列表获取模块,用于获取控制范围内的设备列表,设备列表中包括设备词和设备词对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,且设备昵称词的优先级高于设备类别词的优先级;

分词模块,用于对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

解析模块,用于根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词;

控制指令生成模块,用于根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现上述语音识别控制方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述语音识别控制方法的步骤。

本申请实施例提供的一个或多个实施例至少具有以下有益效果:其中,语音识别控制方法,通过对设备词进行优先级设置,在初始语音文本中分词得到的各设备词所对应的有效设备词中确定优先级最高的设备词作为目标设备词,用于后续的语音控制实现,减小语音识别控制时对同类别瞎其他设备误触发的概率,更具针对性的确定目标设备,且在生成控制指令时,为了避免歧义和指令冲突的情况,保留初始化语音文本中靠后的控制词和有效设备词来生成控制指令,提高语音识别控制的精准度和可靠性。

附图说明

图1为一个实施例中语音识别控制方法的应用环境图;

图2为一个实施例中语音识别控制方法的流程示意图;

图3为另一个实施例中语音识别控制方法的流程示意图;

图4为又一个实施例中语音识别控制方法的流程示意图;

图5为一个实施例中语音识别控制装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。本文所使用的术语“安装”、“一端”、“另一端”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本申请提供的语音识别控制方法,可以应用于提供如图1所示的应用场景中,具体包括收音设备101、终端102和被控设备103,其中,收音设备101用于采集周围环境中的用户声音,还可以将采集的用户声音进行语音识别(automaticspeechrecognition)转换为语音文本,收音设备101将转换后的语音文本发送至终端102,终端102对接收到的语音文本进行自然语言处理,根据处理结果生成并发送控制命令至被控设备103,驱动被控设备103执行控制命令所对应的动作,实现语音控制。其中,收音设备101可以是智能音响等,终端102可以但不限于是各种控制器、具有数据处理功能的智能音响、云计算机、个人计算机、笔记本电脑、智能手机和平板电脑等,终端102也可以是独立的服务器或者是多个服务器组成的服务器集群。具体的,以收音设备101为智能音响,终端102为云端服务器,被控设备103为智能家居设备的应用场景下:智能音响101获取用户语音后,将该语音转化为语音文本传输至云端服务器102,由该云端服务器102进行语义匹配,生成控制指令发送到用户想要控制的智能家居设备103,指示该智能家居设备执行相应的动作。但发明人在实施过程中,发现在进行语义识别控制时,常会发生误触发,例如,用户想打开某个灯,但语音识别控制结果为打开所有灯,语音识别准确度低,造成智能家居的误控制,浪费电能。

针对语音识别控制精准度低的问题,如图2所示,本申请实施例提供本发明实施例提供了一种语音识别控制方法,该方法可应用于如图1所示的应用场景中的终端102,该方法包括:

s20:获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

s40:获取控制范围内的设备列表,设备列表中包括设备词和设备词对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,且设备昵称词的优先级高于设备类别词的优先级;

s60:对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

s80:根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词;

s90:根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

其中,初始语音文本是指如图1所示的收音设备101将采集的声音转换生成的文本。设备类别是指按照设备功能进行划分得到的类,设备类别词是能够表征各类设备功能的词,各类对应的设备类别词之间相互不可重复。控制范围是指用户根据应用场景预先设置的范围,可以是上述收音设备101采集声音的范围。设备昵称词是指控制范围内不可相互重复的词,可以由用户预先进行个性化设置,可以用于区别各设备与同一设备类别下的其他设备的名称,其包含的信息比设备类别词更多。相匹配是指初始语音文本中的设备词包括的字以及各字之间的先后位置关系与设备列表中的设备词包括的字以及各字之间的先后位置关系均相同。

为了提高语音识别控制的精准度,本申请实施例提供的语音识别控制方法,向设备开放平台(云端服务器等)请求控制范围内的设备列表(可以是音响控制范围内的设备列表),设备列表中可以包括有设备昵称词(如:音乐智能灯),设备昵称词(如:床头灯),设备类别词(如:灯),设备位置信息(如:卧室),设备物理地址等字段,设备物理地址又称为mac(mediaaccesscontrol)地址或硬件地址,用来确认设备位置的地址。其中,设备类别词、设备昵称词等设备词与设备位置信息和设备物理地址相对应,确定设备词即可确定该设备的位置信息和设备物理地址,设备列表中的设备类别词、设备昵称词、设备位置信息等可以是根据具体要控制的智能家居的具体布置情况和型号来预先设置和获取的,设备物理地址可以是由路由器或家庭网关、服务器等分配的。其中,若初始化语音文本以此表形式表现,则可以先用空格将此表形式的初始化语音文本拼接成完整的文本字符串,便于后续的数据处理。

根据预设的设置匹配优先级,例如优先以各设备词匹配后得到的有效设备词中的设备昵称词为准确定控制对象,而设备类别词次之,比如打开床头灯,可以优先匹配文本中是否含有床头灯这个呢称,其次可以匹配是否含有设备类别词,比如打开灯。具体匹配过程可以是,获取设备列表中的各设备昵称词,并将各设备昵称词转换为拼音字符串,依次将各设备昵称词转换的拼音字符与该初始化语音文本转化的拼音字符比对,取交集,确定各交集中的最大字符串且设备昵称词,类似的,对设备类别词,设备位置信息等也按照上述方式进行匹配(例如,床头灯是设备昵称词,由于设备昵称词具有最高优先级,则在匹配的有效设备词“床头灯”和“灯”中,就会以“床头灯”为目标设备词,就不会误认用户想要打开灯这一类别的所有设备),对于,各分词后得到的各设备词而言,若匹配出了设备昵称词,则以设备昵称词作为有效设备词,若未匹配出设备昵称词(设备昵称词未匹配),只匹配出设备类别词,则保留设备类别词作为目标设备词。为实现对各设备的控制,通常需要将初始化语音文本处理为单设备词(设备昵称词/设备类别词)+控制指令的情况,在没有进行智能断句处理时,为防止歧义和指令冲突的情况,可以保留初始化语音文本(字符串)中靠近字符串尾的最后一个控制词和最后一个目标设备词以及该目标设备词对应的设备物理地址,将目标设备词和控制词与控制指令词表进行匹配,结合设备物理地址,生成可用于传输的控制指令(机器指令),按照设备物理地址进行寻址,准确传输至需要控制的设备。例如,打开空调关闭灯和窗帘,最后保留生成的控制指令为关闭窗帘。可选的,查找设备列表中与初始语音文本中各设备词相匹配的有效设备词的过程,可以是先查找设备词表中的设备昵称词,再查找设备词表中的设备类别词的优先级顺序进行匹配查找。

本申请实施例提供的语音识别控制方法,通过对设备词进行优先级设置,在初始语音文本中分词得到的各设备词所对应的有效设备词中确定优先级最高的设备词作为目标设备词,用于后续的语音控制实现,减小语音识别控制时对同类别瞎其他设备误触发的概率,更具针对性的确定目标设备,且在生成控制指令时,为了避免歧义和指令冲突的情况,保留初始化语音文本中靠后的控制词和有效设备词来生成控制指令,提高语音识别控制的精准度和可靠性。

在其中一个实施例中,如图3所示,在对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词的步骤之后,且在根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词的步骤之前还包括:

s50:根据从初始语音文本中提取的设备词和控制词以及预存的词义标准化词典,对初始语音文本中的设备词和控制词进行标准化,获得标准化的设备词和标准化的控制词,并用所述标准化的设备词和所述标准化的控制词对应替代所述初始语音文本中的设备词和控制词得到标准化语音文本;

s70:更新初始语音文本为标准化语音文本。

具体的,可以使用开源的工具jieba分词工具,将得到的纠正语音文本分词,然后利用提前加载好的词义标准化词典,该词义标准化词典主要包括一些常用的设备词和控制词,将初始语音文本中口语化的设备词和控制词(用户语音输入时的口语词)对应替换为标准的控制词和设备词,生成标准化语音文本,比如:开灯中的控制词“开”,替换为“打开”。其中,该标准化语音文本可以以词表的形式表现。然后将初始语音文本更新为该标准化语音文本,再执行根据设备列表逐步确定初始语音文本中的各设备词对应的目标设备词的步骤,按照设备昵称词和设备类别词的匹配优先级设置,采用设备列表中的设备昵称词和设备类别词对更新后的初始语音文本进行匹配解析,获得初始语音文本对应的设备昵称词,设备类别词和设备物理地址,并执行上述实施例中所述的控制指令生成过程。通过将初始化语音文本标准化,控制词表中内容只需存储标准的控制词和标准的设备词即可,即可以大大减小将设备词和控制词与控制词表中的内容进行匹配时所需的匹配次数,从而提高整体语音识别效率。

在其中一个实施例中,如图2所示,对初始语音文本进行分词处理的步骤之前还包括:

s30:根据初始语音文本进行领域意图识别;

若判定为设备控制领域,则执行对初始语音文本进行分词处理的步骤。

其中,领域意图识别是指在领域内识别用户语音(与初始语音文本对应)对应的控制意图;意图识别可以看作是一个多分类任务,故领域意图识别可以是通过分类器,在领域内识别用户语音对应的控制意图。设备控制领域是指用户语音对应的控制意图为控制设备执行动作。

为提高语音识别控制的效率,在进行语音文本匹配前,先进行领域意图识别,具体的,可以将初始语音文本与预存的设备词进行匹配,当至少有一种设备匹配时,说明当前需要对设备进行控制,然后进行后续的文本分词等步骤。若与所有预存的设备词均不匹配,说明该初始语音文本对应的用户语音不是以控制设备为目的的,则进入其他工作模式,例如,是以聊天互动为目的的语音,则进入聊天识别模式。

在其中一个实施例中,如图2所示,获取初始语音文本的步骤之前还包括步骤:

s10:将获取的语音转化为初始语音文本。

在获取到初始语音文本之前,还可以将获取的语音转化为初始语音文本,主要是从收音设备获取用户语音,将该语音转化为文本。另外,若用户语音是由具有语音识别(automaticspeechrecognition,asr)的智能音响等收集的,可以由智能音响将语音转化为初始语音文本后,再从该智能音响直接获取该初始语音文本即可。

在其中一个实施例中,如图4所示,设备列表中还包括设备位置信息;初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令的步骤之前还包括:

s71:根据设备列表中的设备位置信息匹配目标设备词对应的设备位置信息;

s72:若根据目标设备词所对应的设备位置信息判定该目标设备词对应的设备不在控制范围内,则生成并发送第一类回复语,第一类回复语用于提示该设备不在控制范围内。

为了提高控制效果,通常会预先设定控制范围,在对初始化语音文本进行匹配得到用户意图控制的设备后,若为设备控制领域,则对获取的初始语音文本进行分词和对分词提取的设备词和控制词标准化,将标准化的设备词和标准化的设备词与设备列表中的各设备词进行有效设备词匹配,并进一步从有效设备词中确定目标设备词,若根据匹配得到的目标设备词对应的设备位置信息判定该设备位置与控制范围冲突,则发送第一类回复语,提示用户意图控制的设备不在控制范围内。例如,控制范围为卧室,此时如果用户对音响发送语音控制指令控制卧室内的床头灯,音响将该语音转换为初始语音文本并传送至处理终端,处理终端对该初始语音文本进行一系列处理后匹配得到床头灯的设备位置信息,由于该设备位置信息与控制范围不冲突,则可以生成控制指令控制卧室内的床头灯。若检测到所述初始化语音文本中不包括设备位置信息,则将预设的默认位置作为控制范围,例如,音响所在位置,所以对于卧室内的其他设备进行控制,则用户在输入语音时,不需要指定设备位置,默认打开卧室的设备,如果想要打开默认位置以外的设备,用户在输入语音时指定设备位置。具体的控制范围可以用户根据应用场景内被控设备的位置和网络覆盖情况等来设定,也可以由开放平台预设。

可选的,若判定匹配的设备位置信息与控制范围冲突,则可以发送第一类回复语至音响,使音响播报该第一类回复语。比如,若控制范围为客厅,用户在客厅对音响输入:打开香薰机,由于没有提供设备位置信息,所以控制范围为默认位置,即音响所在的客厅,但根据设备里列表匹配出的香薰机的设备位置信息为卧室,位置信息冲突,则发送第一类回复语:不好意思,在客厅没找到香薰机。

在其中一个实施例中,语音识别控制方法还包括:

若根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表未生成控制指令,则生成并发送第二类回复语,第二类回复语用于提示用户提供新的语音;

获取用户提供的新的语音;

将获取的新的语音转换为新的语音文本;

将初始化语音文本和新的语音文本融合,生成融合后的语音文本;

并将初始语音文本更新为融合后的语音文本,执行对初始语音文本进行分词的步骤。

如果根据初始语音文本中的最后一个控制词、最后一个目标设备词、最后一个目标设备词对应的设备物理地址和控制指令词表没有正确匹配到指令,则需要反问用户进行澄清,此时,生成并发送第二类回复语,用于提示用户提供新的语音,大致可分为两种情况:一种是当用户没有表述清楚需要设备执行什么功能时,第二类回复语可以是:您要控制这台设备干什么。第二种是若匹配得到多台设备均符合用户的语音所对应的控制指令时(例如,若只提供了设备类别词——灯,未提供设备昵称词——床头灯),第二类回复语可以是:请问您具体需要控制哪一个设备。获取用户提供的新的语音,将该语音转换为新的语音文本,与先前得到的标准化语音文本进行融合,例如,直接进行文本拼接,将初始语音文本更新为融合后的语音文本,并对该初始语音文本执行上述纠错、分词、标准化处理、控制指令匹配等操作,若能够匹配成功控制指令,则发送控制指令至相应的设备,控制流程结束。其中,获取用户提供的新的语音可以是在获取一定时间内收音设备采集到的语音,例如,发送第二类回复语之后的一分钟内收音设备采集到的语音。可选的,为了减少对话流程的复杂性,此处只进行一次第二类回复语发送,如果仍不能成功匹配到控制指令,则发送第三类回复语,提示用户所澄清的语音内容有误,无法识别,还可以将本轮对话中的全部信息存入用户对象。

在其中一个实施例中,语音识别控制方法还包括:

记录获取初始语音文本的第一时间;

记录获取新的语音的第二时间;

若第二时间与第一时间的时间差小于预设的生命周期,则执行将初始化语音文本和新的语音文本融合的步骤。

为更好的说明本申请实施例的实现过程,现以收音设备采集语音为例进行说明。以同一台收音设备采集的语音为对象的用户建立一个具有生命周期的用户对象,生命周期用来防止云端或者终端内存堆积的情况和控制多轮对话的最大时间间隔,以提高语音纠错识别的效率。用户对象中可以存有该收音设备所在的位置和之前的初始化语音文本(标准化语音文本)等对话内容。具体的,若获取新的语音的时间与上次获取初始语音文本的时间差大于生命周期的时间,则认为该轮语音内容与上轮语音内容无关联,不进行语音融合,开启新的一轮语音识别过程。若获取新的语音的第二时间与上次获取初始语音文本的时间差小于生命周期,则认为该轮语音内容与上轮语音内容相关联,是用户根据第二类回复语的提示针对性提供的新的语音,则进行语音融合,对融合后的语音文本进行语音识别控制。其中,第二时间还可以是将新的语音转换为新的语音文本时刻的时间。

可选的,生命周期的设置,也可以是针对于发送第二类回复语和获取新的语音之间的时间间隔,例如,若在发送第二类回复语之后的生命周期内收到语音,才对新的语音转换为新的语音文本,并与上轮得到的标准化语音文本进行融合。若发送第二类回复语之后超过生命周期才收到新的语音,则认为该语音对应的内容与上轮匹配得到的标准化语音文本无关联。例如,生命周期可以是1分钟,若发送第二类回复语1分钟之后才收到新的语音,则认为该语音内容与上轮得到的初始(标准化)语音文本内容无关,不会进行文本融合,以新获取的语音开始新的一轮语音文本转换、纠错分词、标准化处理、控制指令匹配、存储、融合、上下语音内容联想等步骤。

如果根据初始化语音文本、上述初始化语音文本匹配结果和控制指令词表能正确匹配到指令,则发送控制指令至对应的设备,驱动该设备按用户意图进行工作。可选的,在匹配成功生成控制指令时,还可以发送第四类回复语,该第四类回复语用于提示设备正在执行控制指令,可以发送该第四类回复语至音响,由音响进行播报。例如初始化语音文本为:打开空调。匹配成功得到的控制指令用于驱动空调打开,发送至音响的第一类回复语内容可以是:正在为您打开空调。

在其中一个实施例中,对初始语音文本进行分词的步骤之前还包括:

按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各错误词和正确词,以正确词替换错误词的方式,对初始语音文本进行纠正并更新,以生成纠正语音文本;

更新初始语音文本为纠错语音文本;

其中,在初始语音文本中处于同一位置的词只纠正和更新一次;纠错词表包括多个键值对,键为错误词,值为正确词。

键值对中每个键后面对应着相应的值,当相应的键被按下时,则会输出相应的值作为结果,即通过错误词可以确定与其对应的正确词。错误词的长度由长至短是指组成错误词的字数由多到少排列。对初始语音文本中同一位置的词只进行一次纠正和更新是指,每次比对纠正均保证上一轮纠正更新的正确词仍然在。

具体的,本申请实施例提供的语音识别控制方法,通过将获取的初始语音文本与特设的纠错词表进行比对,例如,先将纠错词表中的最长的错误词与初始语音文本进行比对,根据比对结果确定初始语音文本中的错误词,并将该错误词替换为纠错词表中对应的正确词,实现错词纠正,并将初始语音文本更新为纠正后的语音文本,再将长度次之的错误词与更新后的初始语音文本进行比对、纠正、更新,以此循环,直至与长度最短的错误词进行比对后,生成纠正语音文本。例如,若初始语音文本为“打开音乐智能灯和详细及”,纠错词表中的错误词的按长度由长至短依次是“详细及”、“和香”,且“详细及”对应的正确词为“香薰机”,“和香”对应的正确词为“合上”时,先以正确词“香薰机”替代错误词“详细及”对初始语音文本“打开音乐智能灯和详细及”进行纠正和更新,更新后的语音文本为“打开音乐智能灯和香薰机”,再根据错误词“和香”对更新后的语音文本进行纠正和更新,但由于“和香”中的“香”已经进行一次纠正和更新,所以不再对该词进行纠正和更新,即不会以“合上”替代“和香”,以免覆盖上次纠正结果。通过提前对初始语音文本进行纠错,提高后续语音控制指令匹配等过程的准确度,避免因方言等原因导致的初始语音文本错误,造成设备词和控制词识别失败。

本申请实施例提供的语音识别控制方法,在纠正过程中,对于初始语音文本中同一位置的词只进行一次纠正,且对较长的语音文本内容进行优先纠正,可降低或防止对相邻两个词拼接处的前后两字误作为一个整体的词进行纠正,将原本正确的词替换或覆盖原来正确的纠正内容,造成误纠错,提高纠错准确度,进而提高语音识别的准确度。可选的,可对收集的错误词先去重,再由长至短的顺序排列生成纠错词表,以提高语音修正处理速度。

在其中一个实施例中,纠错词表中的各错误词由长至短排列;

按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各错误词和正确词,以正确词替换错误词的方式,对初始语音文本进行纠正并更新,以生成纠正语音文本的步骤包括:

将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词;其中,目标位置的初始值为纠错词表的表头位置;

查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词;

将初始语音文本更新为替换后形成的文本,并将目标位置更新为下一表格位置,执行将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词的步骤;

将目标位置更新为纠错词表的表尾位置后所更新替换形成的语音文本作为纠正语音文本。

为了加快处理速度,无需每次从纠错词表中查找不同长度的错误词,本申请实施例提供的语音识别控制方法,将纠错词表中的错误词由长至短排列,在根据纠错词表中的错误词对初始语音文本进行纠错时,从表头位置开始,将表头位置的错误词与初始语音文本进行比对,确定该初始语音文本中的目标错误词,并通过该目标错误词查找纠错词表中对应的正确词,以正确词替代错误词的方式,对初始语音文本进行纠正和更新,然后,对纠错词表下一格中的错误词与更新替换后的语音文本进行比对,确定目标错误词,查找纠错词表中对应的正确词,并将目标错误词替换为该正确词,每次更新完,就将纠错表中下一个的错误词与新更新生成的语音文本进行比对,确定目标错误词和替换该目标错误词,直至根据纠错表中表尾的错误词对上次更新的语音文本进行纠正和更新后,说明纠错结束,将最后更新的语音文本为纠正语音文本。需要说明的是,对于初始语音文本中已经纠正过的词所处的位置,若在下次错误词比对时,该位置处的词或此种的字与纠错词表中的错误词仍有交集,则不对本次比对确定的目标错误词进行纠正,以避免破坏或覆盖前面的纠正结果。可选的,若纠错词表中当前表格的错误词与初始语音文本比对后,发现初始语音文本中无该错误词,则不进行纠正和更新,直接根据纠错词表下一格的错误词对初始语音文本进行纠正和更新。

为了更好的说明该纠正语音文本的生成过程,举以下具体例子进行说明,但该例子并不对本申请实施例的保护范围造成限定。纠错词表中,错误词由长至短依次排列为“星月智能灯”、“详细及”、“条爱”、“和香”进行说明,各错误词对应的正确词分别为“音乐智能灯”、“香薰机”、“条爱”、“合上”,在对初始语音文本进行纠错时,先将表头位置的错误词“星月智能灯”与初始语音文本“打开星月智能灯和详细及,条爱客厅灯”进行比对,确定该初始语音文本中的目标错误词为“星月智能灯”,并用查表所得的正确词“音乐智能灯”替换“星月智能灯”,初始语音文本更新为“打开音乐智能灯和详细及,条爱客厅灯”;然后将纠错词表中第二格的错误词“详细及”与更新后的初始语音文本“打开音乐智能灯和详细及,条爱客厅灯”进行比对,确定目标错误词“详细及”,用查表所得的正确词“香薰机”替换“详细及”,得到更新后的初始语音文本“打开音乐智能灯和香薰机,条爱客厅灯”;再对纠错词表中第三格的错误词“条爱”与“打开音乐智能灯和香薰机,条爱客厅灯”进行比对,确定目标错误词“条爱”,并用查表所得的正确词“调暗”替换“条爱”,更新初始语音文本得到“打开音乐智能灯和香薰机,调暗客厅灯”;最后将纠错词表表尾的错误词“和香”与“打开音乐智能灯和香薰机,调暗客厅灯”比对,确定目标错误词“和香”,但由于对“香薰机”所在位置已经进行过一次纠正和更新了,即使匹配到错误词“和香”,也不会采用正确词“合上”替代“和香”。

在其中一个实施例中,将纠错词表中目标位置的错误词与初始语音文本进行比对,确定初始语音文本中的目标错误词的步骤包括步骤:

获取纠错词表中的各错误词,并将各错误词转化为拼音字符串;

将初始语音文本转换为待纠正拼音字符串;

将纠错词表中目标位置的错误词所转化的拼音字符串与待纠正拼音字符串比对,得到多个拼音字符交集;

确定各拼音字符交集中的最大子字符串为目标错误词。

由于字符比文本所占存储空间和所要求的处理能力要小,所以本申请实施例提供的语音识别控制方法中,将纠错词表中目标位置的错误词与初始语音文本进行比对,确定初始语音文本中的目标错误词的过程可以采用字符串比对的方式实现,加快处理速度。具体的,将从纠错词表中提取的各错误词转化为拼音字符串,将初始语音文本转换为待纠正拼音字符串,然后将纠错词表中目标位置的错误词所转化的拼音字符串与待纠正拼音字符串比对,得到多个拼音字符交集,确定各拼音字符交集中的最大子字符串为目标错误词,即优先考虑对较长错误词进行修改,最大限度保障上下词之间的连贯性,避免将单个设备词或控制词分割后比对修改,造成误纠正。

为了更好的说明本申请实施例中将纠错词表中目标位置的错误词与初始语音文本进行比对,确定初始语音文本中的目标错误词的实现过程,在此举例说明,此例子并不对本申请实施例的保护范围造成限定。以初始语音文本为“打开星月智能灯,星月播放器和详细及,条爱客厅灯”为例,纠错词表中的错误词按照词的长度由长至短依次排列为“星月智能灯”、“详细及”、“条爱”,各错误词对应的正确词分别为“音乐智能灯”和“音乐”。首先先将初始语音文本转换为待纠正拼音字符串“da,kai,xing,yue,zhi,neng,deng,xing,yue,bo,fang,qi,he,xiang,xi,ji,tiao,ai,ke,ting,deng”,并将各错误词依次转换为拼音字符串,然后将纠错词表中表头位置的错误词“星月智能灯”所转化的拼音字符串“xing,yue,zhi,neng,deng”与待纠正拼音字符串“da,kai,xing,yue,zhi,neng,deng,he,xiang,xi,ji,tiao,ai,ke,ting,deng”比对,得到拼音字符交集“xing,yue,zhi,neng,deng”和“xing,yue”,确定各拼音字符交集中的最大子字符串“xing,yue,zhi,neng,deng”为目标错误词,并采用查表所得的正确词“音乐智能灯”所转换的拼音字符串“yinyuezhinengdeng”替换“xingyuezhinengdeng”,更新后的待纠正拼音字符串为“da,kai,yin,yue,zhi,neng,deng,he,xiang,xi,ji,tiao,ai,ke,ting,deng”,然后再将纠错词表中下一个的错误词“详细及”所转换的拼音字符串“xiang,xi,ji”与更新后的待纠正拼音字符串进行比对。优先考虑对较长错误词进行修改,最大限度保障上下词之间的连贯性,避免将单个设备词或控制词分割后比对修改,造成误纠正。

在其中一个实施例中,在确定各拼音字符交集中的最大子字符串为目标错误词的步骤之后还包括:

记录目标错误词对应的拼音字符在待纠正拼音字符串中的位置信息;

查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词的步骤包括:

若判定当前记录的位置信息与前一次记录的位置信息不同,则查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词。

其中,为了避免初始语音文本中在先修改的内容,在后续纠正和更新中被重新修改,在利用纠错词表中的当前错误词确定目标错误词后,还记录该目标错误词在待纠正拼音字符串中的位置,在采用纠错词表中的下一个错误词进行目标错误词确定时,若确定的目标错误词在待纠正拼音字符串中的位置与在先记录的位置有重叠,说明该目标错误词中的部分内容已经被修改过,再对该部分内容进行纠正修改将覆盖原来的纠正修改内容,所以不对后一次确定的目标错误词进行纠正和更新。类似的,当确定的目标错误词所在位置与在先记录的位置无重叠,则说明还未对该部分内容进行纠正和更新,则可以从纠错词表中查找该目标错误词对应的正确词,并用该正确词替代该目标错误词,并更新初始语音文本,以便与纠错词表中的下一错误词进行比对。

应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

一种语音识别控制装置,如图5所示,包括:

语音文本获取模块1,获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

设备列表获取模块2,用于获取控制范围内的设备列表,所述设备列表中包括设备词和所述设备词对应的设备物理地址;所述设备词包括设备类别词和/或设备昵称词,且所述设备昵称词的优先级高于所述设备类别词的优先级;

分词模块3,用于对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

解析模块4,用于根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词,其中,设备昵称词的优先级高于设备类别词的优先级;

控制指令生成模块5,用于根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

其中,关于语音识别控制装置的具体限定可以参见上文中对于语音识别控制方法的限定,在此不再赘述。具体的,通过语音文本获取模块1获取初始语音文本;然后通过设备列表获取模块2获取控制范围内的设备列表,设备列表中包括设备词和各设备词对应的设备物理地址,设备词包括设备类别词和/或设备昵称词,且所述设备昵称词的优先级高于所述设备类别词的优先级,进一步通过分词模块3对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词,再通过解析模块4根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;最后,通过控制指令生成模块5根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令。上述语音识别控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现,其有益效果与上述方法实施例中相同。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中,语音识别控制装置还包括:

标准化语音文本获取单元,用于根据从初始语音文本中提取的设备词和控制词以及预存的词义标准化词典,对初始语音文本中的设备词和控制词进行标准化,获得标准化的设备词和标准化的控制词,并用标准化的设备词和标准化的控制词对应替代初始语音文本中的设备词和控制词得到标准化语音文本;

第一初始语音文本更新单元,用于更新初始语音文本为标准化语音文本。

在其中一个实施例中,语音识别控制装置还包括:

意图识别模块,用于根据初始语音文本进行领域意图识别;

控制领域判断模块,用于在判定为设备控制领域,则执行对初始语音文本进行分词的步骤。

在其中一个实施例中,语音识别控制装置还包括:

设备位置信息获取模块,用于根据设备列表中的设备位置信息匹配目标设备词对应的设备位置信息;

第一类回复语发送模块,用于在根据目标设备词所对应的设备位置信息判定目标设备词对应的设备不在控制范围内,则生成并发送第一类回复语,第一类回复语用于提示语音控制的设备不在控制范围内;

其中,设备列表中还包括设备位置信息。

在其中一个实施例中,语音识别控制装置还包括:

第二类回复语发送模块,用于在根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表未生成控制指令时,则生成并发送第二类回复语,第二类回复语用于提示用户提供新的语音;

新语音获取模块,用于获取用户提供的新的语音;

新语音文本转换模块,用于将获取的新的语音转换为新的语音文本;

语音文本融合模块,用于将初始化语音文本和新的语音文本融合,生成融合后的语音文本;

第二初始语音文本更新模块,用于将初始语音文本更新为融合后的语音文本,执行对初始语音文本进行分词的步骤。

在其中一个实施例中,语音识别控制装置还包括:

第一时间获取模块,用于记录获取初始语音文本的第一时间;

第二时间获取模块,用于记录获取新的语音的第二时间;

生命周期判断模块,用于在第二时间与第一时间的时间差小于预设的生命周期时,则执行将初始化语音文本和新的语音文本融合的步骤。

在其中一个实施例中,语音识别控制装置还包括:

纠错语音文本获取模块,用于按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各错误词和正确词,以正确词替换错误词的方式,对初始语音文本进行纠正并更新,以生成纠正语音文本;

第三初始语音文本更新模块,用于更新初始语音文本为纠错语音文本;

其中,在初始语音文本中处于同一位置的词只纠正和更新一次;纠错词表包括多个键值对,键为错误词,值为正确词。

在其中一个实施例中,纠正语音文本获取模块包括:

比对单元,用于将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词;其中,目标位置的初始值为纠错词表的表头位置;

正确词替换单元,用于查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词;

语音文本更新单元,用于将初始语音文本更新为替换后形成的文本,并将目标位置更新为下一表格位置,执行将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词的步骤;

纠正语音文本生成单元,用于将目标位置更新为所述纠错词表的表尾位置后所更新替换形成的语音文本作为纠正语音文本;

其中,纠错词表中的各错误词由长至短排列。

其中,各模块中的各个单元可全部或部分通过软件、硬件及其组合来实现,其有益效果与上述方法实施例中相同。具体的,比对单元将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词,并将确定的目标错误词发送至正确词替换单元,正确词替换单元查找纠错词表中目标错误词对应的正确词,并将目标错误词替换为对应的正确词,再通过语音文本更新单元将初始语音文本更新为替换后形成的文本,并将目标位置更新为下一表格位置,并驱动比对单元再次执行将纠错词表中目标位置的错误词与初始语音文本进行比对,以确定初始语音文本中的目标错误词的步骤,最后,纠正语音文本生成单元将目标位置更新为所述纠错词表的表尾位置后所更新替换形成的语音文本作为纠正语音文本。

在其中一个实施例中,比对单元包括:

错误词转换单元,用于获取纠错词表中的各错误词,并将各错误词转化为拼音字符串;

初始语音文本转换单元,用于将初始语音文本转换为待纠正拼音字符串;

拼音字符串比对单元,用于将纠错词表中目标位置的错误词所转化的拼音字符串与待纠正拼音字符串比对,得到多个拼音字符交集;

目标错误词确定单元,用于确定各拼音字符交集中的最大子字符串为目标错误词。

在其中一个实施例中,语音文本修正装置还包括:

位置信息记录单元,用于记录所述目标错误词对应的拼音字符在所述待纠正拼音字符串中的位置信息;

比对单元还包括:

防覆盖错词替换单元,用于在判定当前记录的位置信息与前一次记录的位置信息不同,则查找所述纠错词表中目标错误词对应的正确词,并将所述目标错误词替换为对应的正确词。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储纠错词表、设备列表、自定义词典等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述图2-图4对应的实施例中的语音识别控制方法,关于语音识别控制方法的具体实现,可参考前述图2-图4对应的实施例的描述,此处不再赘述。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

s20:获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

s40:获取控制范围内的设备列表,设备列表中包括设备词和设备词对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,且设备昵称词的优先级高于设备类别词的优先级;

s60:对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

s80:根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词;

s90:根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

需要说明的是,本申请实施例提供的计算机设备,其处理器在运行存储器存储的程序时,可以执行上述任意一方法实施例中的步骤、实现相应的有益效果。

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

s20:获取初始语音文本,初始语音文本为对用户声音进行语音识别后生成的文本;

s40:获取控制范围内的设备列表,设备列表中包括设备词和设备词对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,且设备昵称词的优先级高于设备类别词的优先级;

s60:对初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;

s80:根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定初始语音文本中各个设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;目标设备词是指有效设备词中优先级最高的设备词;

s90:根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;目标设备物理地址为最后一个设备词对应的目标设备词所对应的设备物理地址,控制指令词表用于表征初始语音文本和控制指令的关系,控制指令用于指示最后一个目标设备词对应的设备执行控制词对应的动作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:

1.一种语音识别控制方法,其特征在于,包括:

获取初始语音文本,所述初始语音文本为对用户声音进行语音识别后生成的文本;

获取控制范围内的设备列表,所述设备列表中包括设备词和所述设备词对应的设备物理地址;所述设备词包括设备类别词和/或设备昵称词,且所述设备昵称词的优先级高于所述设备类别词的优先级;

对所述初始语音文本进行分词处理,提取所述初始语音文本中的设备词和控制词;

根据所述设备列表确定与所述初始语音文本中的各所述设备词匹配的有效设备词,从所述有效设备词中确定所述初始语音文本中各个设备词对应的目标设备词,并从所述设备列表中确定所述目标设备词对应的设备物理地址;所述目标设备词是指有效设备词中优先级最高的设备词;

根据所述初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、所述初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;所述目标设备物理地址为所述最后一个设备词对应的目标设备词所对应的设备物理地址,所述控制指令词表用于表征所述初始语音文本和所述控制指令的关系,所述控制指令用于指示所述最后一个目标设备词对应的设备执行所述控制词对应的动作。

2.根据权利要求1所述的语音识别控制方法,其特征在于,在所述对所述初始语音文本进行分词处理,提取所述初始语音文本中的设备词和控制词的步骤之后,且在所述根据所述设备列表确定与所述初始语音文本中的各所述设备词匹配的有效设备词的步骤之前还包括:

根据从所述初始语音文本中提取的设备词和控制词以及预存的词义标准化词典,对所述初始语音文本中的设备词和控制词进行标准化,获得标准化的设备词和标准化的控制词,并用所述标准化的设备词和所述标准化的控制词对应替代所述初始语音文本中的设备词和控制词得到标准化语音文本;

更新所述初始语音文本为所述标准化语音文本。

3.根据权利要求1所述的语音识别控制方法,其特征在于,所述对所述初始语音文本进行分词处理的步骤之前还包括:

根据所述初始语音文本进行领域意图识别;

若判定为设备控制领域,则执行对所述初始语音文本进行分词处理的步骤。

4.根据权利要求1所述的语音识别控制方法,其特征在于,所述设备列表中还包括设备位置信息;所述初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、所述初始语音文本中的最后一个控制词以及控制指令词表生成控制指令的步骤之前还包括:

根据所述设备列表中的设备位置信息匹配所述目标设备词对应的设备位置信息;

若根据所述目标设备词所对应的设备位置信息判定所述目标设备词对应的设备不在所述控制范围内,则生成并发送第一类回复语,所述第一类回复语用于提示语音控制的所述设备不在控制范围内。

5.根据权利要求1所述的语音识别控制方法,其特征在于,所述方法还包括:

若根据所述初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、所述初始语音文本中的最后一个控制词以及控制指令词表未生成控制指令,则生成并发送第二类回复语,所述第二类回复语用于提示用户提供新的语音;

获取用户提供的新的语音;

将所述新的语音转换为新的语音文本;

将所述初始化语音文本和所述新的语音文本融合,生成融合后的语音文本;

并将所述初始语音文本更新为所述融合后的语音文本,执行对所述初始语音文本进行分词的步骤。

6.根据权利要求1-5中任一项所述的语音识别控制方法,其特征在于,所述对所述初始语音文本进行分词的步骤之前还包括:

按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各所述错误词和正确词,以正确词替换错误词的方式,对所述初始语音文本进行纠正并更新,以生成纠正语音文本;

更新所述初始语音文本为所述纠错语音文本;

其中,在所述初始语音文本中处于同一位置的词只纠正和更新一次;所述纠错词表包括多个键值对,键为错误词,值为正确词。

7.根据权利要求6所述的语音识别控制方法,其特征在于,所述纠错词表中的各所述错误词由长至短排列;

所述按错误词的长度由长至短的顺序,依次根据预存的纠错词表中的各所述错误词和正确词,以正确词替换错误词的方式,对所述初始语音文本进行纠正并更新,以生成纠正语音文本的步骤包括:

将所述纠错词表中目标位置的错误词与所述初始语音文本进行比对,以确定所述初始语音文本中的目标错误词;其中,所述目标位置的初始值为所述纠错词表的表头位置;

查找所述纠错词表中目标错误词对应的正确词,并将所述目标错误词替换为对应的正确词;

将所述初始语音文本更新为替换后形成的文本,并将所述目标位置更新为下一表格位置,执行所述将所述纠错词表中目标位置的错误词与所述初始语音文本进行比对,以确定所述初始语音文本中的目标错误词的步骤;

将所述目标位置更新为所述纠错词表的表尾位置后所更新替换形成的语音文本作为所述纠正语音文本。

8.根据权利要求7所述的语音识别控制方法,其特征在于,所述将所述纠错词表中目标位置的错误词与所述初始语音文本进行比对,确定所述初始语音文本中的目标错误词的步骤包括步骤:

获取所述纠错词表中的各所述错误词,并将各所述错误词转化为拼音字符串;

将所述初始语音文本转换为待纠正拼音字符串;

将所述纠错词表中目标位置的错误词所转化的拼音字符串与所述待纠正拼音字符串比对,得到多个拼音字符交集;

确定各所述拼音字符交集中的最大子字符串为所述目标错误词。

9.根据权利要求8所述的语音识别控制方法,其特征在于,在所述确定各所述拼音字符交集中的最大子字符串为所述目标错误词的步骤之后还包括:

记录所述目标错误词对应的拼音字符在所述待纠正拼音字符串中的位置信息;

所述查找所述纠错词表中目标错误词对应的正确词,并将所述目标错误词替换为对应的正确词的步骤包括:

若判定当前记录的位置信息与前一次记录的位置信息不同,则查找所述纠错词表中目标错误词对应的正确词,并将所述目标错误词替换为对应的正确词。

10.一种语音识别控制装置,其特征在于,包括:

语音文本获取模块,获取初始语音文本,所述初始语音文本为对用户声音进行语音识别后生成的文本;

设备列表获取模块,用于获取控制范围内的设备列表,所述设备列表中包括设备词和所述设备词对应的设备物理地址;所述设备词包括设备类别词和/或设备昵称词,且所述设备昵称词的优先级高于所述设备类别词的优先级;

分词模块,用于对所述初始语音文本进行分词处理,提取所述初始语音文本中的设备词和控制词;

解析模块,用于根据所述设备列表确定与所述初始语音文本中的各所述设备词匹配的有效设备词,从所述有效设备词中确定所述初始语音文本中各个设备词对应的目标设备词,并从所述设备列表中确定所述目标设备词对应的设备物理地址;所述目标设备词是指有效设备词中优先级最高的设备词;

控制指令生成模块,用于根据所述初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、所述初始语音文本中的最后一个控制词以及控制指令词表生成控制指令;所述目标设备物理地址为所述最后一个设备词对应的目标设备词所对应的设备物理地址,所述控制指令词表用于表征所述初始语音文本和所述控制指令的关系,所述控制指令用于指示所述最后一个目标设备词对应的设备执行所述控制词对应的动作。

11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9中任一项所述的语音识别控制方法的步骤。

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要球1-9中任一项所述的语音识别控制方法的步骤。

技术总结

本申请涉及一种语音识别控制方法及装置、计算机设备和计算机存储介质。该方法包括:获取控制范围内的设备列表,设备列表中包括设备词和对应的设备物理地址;设备词包括设备类别词和/或设备昵称词,设备昵称词的优先级高于设备类别词的;然后对获取的初始语音文本进行分词处理,提取初始语音文本中的设备词和控制词;根据设备列表确定与初始语音文本中的各设备词匹配的有效设备词,从有效设备词中确定优先级最高的有效设备词作为该设备词对应的目标设备词,并从设备列表中确定目标设备词对应的设备物理地址;根据初始语音文本中最后一个设备词对应的目标设备词、目标设备物理地址、初始语音文本中的最后一个控制词以及控制指令词表生成控制指令。

技术研发人员:周阳;徐宇垚;马秦宇

受保护的技术使用者:深圳和而泰家居在线网络科技有限公司

技术研发日:.09.29

技术公布日:.02.07

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。