700字范文 > 文本核对方法设备以及计算机可读存储介质与流程

文本核对方法设备以及计算机可读存储介质与流程

时间：2022-05-19 18:58:04

本申请实施例涉及人机语音交互技术领域，尤其涉及一种文本核对方法、设备以及计算机可读存储介质。

背景技术：

目前在保险等行业开始尝试开展智能外呼业务。系统集成tts(texttospeech，文语转换)/asr(automatedspeechrecognition，自动语音识别)引擎，通过电话方式呼通用户后，自动播放语音与用户沟通确认，在话音和互动性上模拟和接近话务员的沟通效果。交互过程中除了播放问题让用户选择性回答外，一般会涉及与客户核对身份，年龄、联系方式及住址等。

业界各厂商的asr引擎支持将语音识别为文本后上报给业务，业务再与期望文本进行比对和匹配等处理。此种方式对固定词汇识别率较高(如询问用户对某产品是否满意，用户回答满意)，但在特定领域，如姓名核对，由于客户非标准普通话和口音问题，如果直接将asr识别结果匹配用户名称，成功率较低，原因是通过语音识别生成文本的过程中，在声学模型匹配和语言模型取舍时，非此即比的判断会导致信息的误判，很难与实际的姓名匹配，即使通过拼音模糊匹配和近似度算法处理，仍然达不到很好效果。

该问题的出现，与asr的识别处理机制直接相关(详见附图1)：在asr将语音编码处理形成文字的过程，依赖于声学模型和语言模型，识别的时候除了计算声学得分外，还会考虑语言得分，然后挑选一个最佳得分出来，选择为识别结果。对于一些长句子或者常见语汇，语言得分会发挥很大作用(主要是句子长了，语言得分区分度大)，声学得分基本上偏差不大。这就会使得asr识别长句子比较准确(语言得分区分度大导致候选句子间得分区分度大)。短句，特别是非常见语汇，比如人名识别，就比较困难。语言得分和声学得分整体区分度都不够大，识别结果会整体向语言得分稍大的词偏。结果，不仅是“章森”往往往被识别为“张生”，甚至可能把“张五”识别为“商务”等。

可能的一种解决方法是将asr识别出的姓名与实际姓名做拼音对比，并且模糊音匹配处理，如z、c、s与zh、ch、sh，k、n、h与g、l、f等，认为是相同发音。但由于用户发音本身不规范加上语言模型的相互作用和干扰，核对准确率仍然不高。

技术实现要素：

有鉴于此，本申请实施例的目的在于提供一种文本核对方法、设备以及计算机可读存储介质，以解决语音交互中文本核对的准确率不高的问题。

本申请实施例解决上述技术问题所采用的技术方案如下：

根据本申请实施例的一个方面，提供的一种文本核对方法，所述方法包括：

获取输入语音特征向量和标准语音特征向量；

对所述输入语音特征向量和所述标准语音特征向量进行相似度分析，得到文本核对匹配度；

将所述文本核对匹配度的值与预设阈值进行比较，并根据比较结果确定文本核对结果。

根据本申请实施例的另一个方面，提供的一种文本核对设备，所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本核对程序，所述文本核对程序被所述处理器执行时实现上述的文本核对方法的步骤。

根据本申请实施例的另一个方面，提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有文本核对程序，所述文本核对程序被处理器执行时实现上述的文本核对方法的步骤。

本申请实施例的文本核对方法、设备以及计算机可读存储介质，通过对输入语音特征向量和标准语音特征向量进行相似度分析，进而确定文本核对结果；一方面保留输入语音的特征向量进行核对，避免解码过程中信息损失和受语言模型干扰；另一方面提高了语音交互中文本核对的准确性，同时为业务处理提供了更大的灵活性。

附图说明

图1为现有的asr的识别处理机制结构示意图；

图2为本申请第一实施例的文本核对方法流程示意图；

图3为本申请实施例的文本核对系统结构示意图；

图4为本申请实施例的根据输入语音的核对场景进行文本核对的流程示意图；

图5为本申请第二实施例的文本核对设备结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

第一实施例

如图2所示，本申请第一实施例提供一种文本核对方法，所述方法包括：

步骤s11：获取输入语音特征向量和标准语音特征向量。

在一种实施方式中，所述获取输入语音特征向量包括：

获取输入语音；

提取所述输入语音的特征，生成所述输入语音特征向量。

在该实施方式中，输入语音为对模拟语音信号进行采样编码后转换生成的数字语音信号。在进行采样编码时，一般会将模拟语音信号按照很短的时间间隔(毫秒级别)切成帧，帧与帧之间会有一定的重叠。

在该实施方式中，所述提取所述输入语音的特征，生成所述输入语音特征向量，之前还包括：

确定所述输入语音的核对场景；

所述提取所述输入语音的特征，生成所述输入语音特征向量包括：

根据所述输入语音的核对场景提取所述输入语音的特征，生成所述输入语音特征向量。

在该实施方式中，所述核对场景包括姓名核对场景、车牌核对场景、地址核对场景中的至少一种。

作为示例地，姓名核对场景、车牌核对场景、地址核对场景分别有不同的特征模型：姓名特征(n1,n2,n3,...,ni)，车牌特征(p1,p2,p3,...,pi)，地址特征(a1,a2,a3,...,ai)。

需要说明的是，对于地址核对场景，地址信息一般包含几个部分，包括市县、城区、街道/小区、门牌号等，生成特征向量时需要考虑客户非常规描述，如省略市县，城区在最后补充说明等情况。

在该实施方式中，所述提取所述输入语音的特征，生成所述输入语音特征向量，之前还包括：

剔除所述输入语音中的非关键语音信息。

作为示例地，在姓名核对时，客户回答“我是xxx”，“我的名字叫xxx”等，需要将“我是”，“我的名字叫”去除后，再提取输入语音的特征。

在该实施方式中，所述提取所述输入语音的特征包括：

通过mfcc(mel-frequencycepstralcoefficients，mel频率倒谱系数)规则和端点检测方式提取所述输入语音的特征。

具体地，对于语音编码中每一帧，可以通过对应规则和端点检测方式提取信号中的特征，将其变成一个多维向量，例如：(x1,x2,x3,x4)。向量中的每一个维度可以看作描述了这帧信号中的一项特征。

在一种实施方式中，所述获取标准语音特征向量包括：

获取预期文本；

将所述预期文本转换生成所述标准语音特征向量。

在该实施方式中，可通过预设的音库模型数据将所述预期文本转换生成所述标准语音特征向量。音库模型数据可参考现有技术，在此不作赘述。

类似tts技术中采用的方法，将文字序列转换生成音韵系列，转换时还需考虑语言学上的处理，例如分词，字音转换等。不同之处在于生成的音韵系列不是产生声音波形，而是输出标准语音特征向量，例如：(x′1,x′2,x′3,x′4)。

作为示例地，与上述的核对场景类似的，姓名核对场景、车牌核对场景、地址核对场景分别有不同的特征模型：姓名特征(n′1,n′2,n′3,...,n′i)，车牌特征(p′1,p′2,p′3,...,p′i)，地址特征(a′1,a′2,a′3,...,a′i)。

步骤s12：对所述输入语音特征向量和所述标准语音特征向量进行相似度分析，得到文本核对匹配度。

在本实施例中，所述对所述输入语音特征向量和所述标准语音特征向量进行相似度分析包括：

对所述输入语音特征向量和所述标准语音特征向量进行相似度度量和距离度量。

步骤s13：将所述文本核对匹配度的值与预设阈值进行比较，并根据比较结果确定文本核对结果。

在本实施例中，所述文本核对匹配度的值为(0～1)之间的数值，数值越高越相似。一般情况下，若文本核对匹配度的值>＝0.8，即认为输入语音与预期文本核对成功。

为了更好地阐述本实施例，以下结合图3-图4对文本核对过程进行说明：

如图3所示，文本核对系统包括语音输入模块、媒体处理模块、预处理模块和核对模块。

语音输入模块，用于获取用户需要核对的文本(即模拟语音信号)，例如：姓名。

媒体处理模块，用于对模拟语音信号进行采样编码后转换生成数字语音信号。

预处理模块，用于确定输入语音的核对场景；提取输入语音的特征，并生成输入语音特征向量。

核对模块，用于通过音库模型数据将预期文本转换生成标准语音特征向量；对输入语音特征向量和标准语音特征向量进行相似度分析，得到文本核对匹配度；将文本核对匹配度的值与预设阈值进行比较，并根据比较结果确定文本核对结果。

图4为根据输入语音的核对场景进行文本核对的流程示意图，具体地包括步骤：

s201、对用户输入语音进行编码，转换成数字语音信号。

s202、确定输入语音的核对场景。其中，姓名核对，车牌核对，地址核对分别有不同的特征模型:姓名特征(n1,n2,n3,...,ni)，车牌特征(p1,p2,p3,...,pi)，地址特征(a1,a2,a3,...,ai)。

s203、通过音库模型数据将预期文本转换生成标准语音特征向量。其中，姓名核对，车牌核对，地址核对分别有不同的特征向量:姓名特征(n′1,n′2,n′3,...,n′i)，车牌特征(p′1,p′2,p′3,...,p′i)，地址特征(a′1,a′2,a′3,...,a′i)。

s204、对输入语音特征向量和标准语音特征向量进行相似度分析，即计算向量空间余弦相似度和距离。

s205、输出相似度。一般情况下，相似度>＝0.8，即认为输入语音与预期文本核对成功。

以下再结合应用场景对文本核对过程进行说明：

应用场景一：保险新契约回访业务。

按银行保监会要求，客户签署保单后，保险公司必须在犹豫期内对客户进行回访，对保险人身份，保险条款，产品特征与客户沟通确认，并进行录音。

为了节省人力成本，保险公司开始推广通过自动语音进行智能外呼，通过呼叫中心ivr(interactivevoiceresponse，互动式语音应答)系统呼叫用户，在语音交互过程中除了播放问题让客户选择性回答外，一般会涉及与客户核对被保险人姓名。

此时，对客户输入语音(姓名)进行特征提取生成输入语音特征向量，并将保单中的姓名作为预期文本输入产生标准语音向量，经过相似度分析后输出相似度，ivr流程中再与预先设置的阈值(如，0.9)比较，大于阈值则认为被保人姓名核对成功，继续下一步流程。否则提示客户重新说出被保人姓名再次核对。

应用场景二：车险客户验真回访。

针对非新车客户系统应首先核实车牌号。典型话术为“请问您投保的车辆号牌的后五位是渝***多少？(如：渝a-bc123)”客户输入语音后，在生成输入语音特征向量之前，需要进行预处理，即将客户的说法中可能重复问题的部分“渝a-”去掉，然后再将剩下部分生成输入语音特征向量；生成的输入语音特征向量与“bc123”标准语音特征向量进行相似度分析。

应用场景三：某电子商务网站组织抽奖活动，客户在网站上登记电话号码和收件地址。

为了确保收件地址真实有效，系统事后发起自动语音外呼客户，提示客户说出地址。客户语音回答时，系统需要对语音信号的短时能量、波形走势特征进行端点检测，将客户所说地址信息进行切分，如“重庆市”、“两江新区”、“人和街道”、“星光五路3号”，然后再生成多段输入特征向量(即输入语音特征向量)。同时将客户在网站登记的地址信息进行分词，形成多段预期特征向量(即标准语音特征向量)，然后再进行交叉对比，计算最优组合下的匹配度，并加权处理后作为总匹配度输出。

本申请实施例的文本核对方法，通过对输入语音特征向量和标准语音特征向量进行相似度分析，进而确定文本核对结果；一方面保留输入语音的特征向量进行核对，避免解码过程中信息损失和受语言模型干扰；另一方面提高了语音交互中文本核对的准确性，同时为业务处理提供了更大的灵活性。

第二实施例

如图5所示，本申请第二实施例提供一种文本核对设备，所述设备包括：存储器31、处理器32及存储在所述存储器31上并可在所述处理器32上运行的文本核对程序，所述文本核对程序被所述处理器32执行时，用于实现以下所述的文本核对方法的步骤：

获取输入语音特征向量和标准语音特征向量；

对所述输入语音特征向量和所述标准语音特征向量进行相似度分析，得到文本核对匹配度；

将所述文本核对匹配度的值与预设阈值进行比较，并根据比较结果确定文本核对结果。