700字范文 > 语音识别系列1：语音识别Speech recognition综述

语音识别系列1：语音识别Speech recognition综述

时间：2018-10-03 04:53:29

名词约定：

语声识别----- VOICE RECOGNITION

语音识别-----SPEECHRECOGNITION

1 什么是语声识别VOICE RECOGNITION？

语音或说话者识别是程序根据其独特的声纹识别人的能力。它通过扫描语音并与所需的语音指纹建立匹配来工作。人工智能的发展为计算机科学的这一子领域开辟了广阔的机遇。它使我们能够在不接触机器的情况下与机器进行交互。它发展迅速，开发人员正在寻找越来越多的方法将其应用到各个领域。

2 语声识别（VOICE RECOGNITION）和语音识别(SPEECHRECOGNITION)有什么区别？

了解这两个学科之间的差异至关重要。语音识别的目的是识别语音所有者。语言识别的目的是识别说话者的话。在第一种情况下，程序需要说话人的独特声纹进行比较。在第二种情况下，程序需要一个巨大的字典来识别说话者的意义表达。

3 语声识别（VOICE RECOGNITION）系统的类型

语音识别有两类，它们是：

文本相关——系统经过训练，可以识别说话者预先确定的语音密码；文本独立 - 它不需要预先确定的密码。分析的主题是会话语音。

4 语音识别系统的类型

我们可以将自动话语识别（ASR）分为不同的类别。首先，它依赖于扬声器。从这方面来看，有两种类型是已知的，它们是：

取决于说话者——程序经过训练可以识别特定的声音，类似于语音识别。说话者必须与程序“交谈”并赋予程序分析声音的能力。这样的系统更容易实现。它们在语音识别方面提供了高精度；说话者独立——这种类型的语音识别软件有更广泛的用途。它不需要训练来分析声音。重点是说话者的单词识别。此类程序的典型示例是 IVR 系统。

另一种分类方法是基于用户说话的方式。这些类别是：

离散语音识别——ASR 应用程序从早期版本开始就使用这种方法。 Т说话者必须分别发音每个单词，在它们之间插入停顿。使用这样的程序，工作起来更加困难。口语频率不易保证；连续语音识别——这是一种相对较新的 ASR 方法，需要更多的努力来开发。在这种情况下，说话者的语速接近正常。

在人工智能语音识别领域，另一种技术是众所周知的。它是自然语言处理（NLP）。 Тhe 语音识别系统的任务是理解单词。 NLP 系统的任务是理解和回答说话者。那是模仿人与机器之间的交流。 NLP 接近语音/语音识别，但基于不同的算法。

5 语音识别简史

这项技术的第一个重要步骤始于 IBM 的贝尔实验室。 1952 年，IBM 推出了奥黛丽 Audrey，这是第一个记录在案的语音识别器。奥黛丽是一个完全类比系统，可以理解单个数字，中间有停顿。十年后，IBM 推出了 Shoebox，能够识别 0 到 9 的 16 个英文单词和数字。在 1970 年代初期，这项技术的发展有了飞跃。这主要归功于美国国防部的研发机构 DARPA。经过五年的研究，卡内基梅隆大学诞生了 Harpy。一台能够理解 1011 个单词的机器。此外，Harpy 与它的前辈有很大不同。它可以理解句子。 80 年代初，语音识别系统的词汇量增加到几千个单词。这主要归功于隐马尔可夫统计模型。语音识别从基于模式的数字信号处理转变为使用统计模型从未知声音中预测单词。

此外，机器在识别单词方面变得更加准确。 IBM 的语音识别小组在 80 年代中期推出了实验性转录系统 Tangora。 Tangora 能够识别 20000 个单词。从 1990 年代开始，借助个人电脑，DragonDictate 等语音识别产品开始为消费者所用。在过去的二十年里，许多科技巨头都在从事这项技术。在本文后面，您将熟悉他们的产品。

6 语音识别的工作原理

现代 ASR 系统基于三种模型：声学、发音和语言。

声学建模使区分语音信号和音素（声音单位）成为可能。隐马尔可夫模型 (HMM) 是一种常见的声学建模方法。其他方法使用深度神经网络或卷积神经网络等；发音模型定义了如何组合音素来造词；语言建模是一门有助于区分发音相同的单词和短语的学科。

录制语音后，噪声被清除，有用信号从录音中过滤掉。 Т他的记录被分成小片段。之后，每个片段都通过声学模型。这些片段与音素进行比较，音素是一个最初构建的统计模型，用于描述语音中每个声音的发音。基于这些匹配，从音素中收集单词。 Тhe 查找单词的效率很大程度上取决于预先准备好的音素数据库的大小。

6.1 录制你的声音

在任何设备上，都使用麦克风进行录音。如果设备没有，则需要连接麦克风耳机或专业麦克风。为此，您可以使用预安装的应用程序，例如 Windows 10 上的录音机、Apple 产品上的语音备忘录等。还有大量具有高级功能的应用程序。它们提供了选择记录质量、比特率或格式来保存记录的机会。有些是基于人工智能的，可以让你摆脱录音中不必要的噪音。

6.2 注册

用户注册需要记录说话人的声音并提取独特的声纹作为每个说话人识别软件的第一阶段。下一阶段是验证。将录制的语音与不同语音的数据库进行比较，以找到最佳匹配或与特定语音。

7 语音识别工具

如果您不想构建语音识别系统，可以使用各种开源工具。其中有：

CMU Sphinx——卡内基梅隆大学开发的独立于说话者的连续语音识别系统。 CMU Sphinx 包括一组为不同目的而设计的产品。可从 GitHub 网页下载。此外，您还可以在那里找到用户文档。支持多种流行的编程语言，如C/C++、C#、Java、Python；HTK 工具包——用于处理隐马尔可夫模型的工具包。它由机器智能实验室在剑桥大学开发，主要用于语音识别研究。它不是完全开源的。用户可以在 HTK 官方网站上找到有关使用该产品的信息。支持的编程语言是 C 和 Python；Kaldi——这是一个用于语音识别和信号处理的开源工具包。该工具包本身可从 GitHub 存储库下载。该文档可在官方网站上找到。支持的编程语言是 C++ 和 Python。

8如何使用语音识别

由于个人电脑和智能手机以及人工智能的快速发展，语音和语音识别软件已经进入我们的日常生活。他们让我们通过交谈来控制我们的设备。第一个值得一提的产品是虚拟助手。谷歌和苹果正在发布带有内置虚拟助手的操作系统。微软已将其虚拟助手 Cortana 添加到 Windows。智能扬声器与虚拟助手集成。此类设备的示例包括嵌入 Alexa 的 Amazon Echo 和在 Siri 上运行的 Apple HomePod。语音识别在呼叫中心的 IVR 系统、医疗设备中实现。它用于具有语音生物特征的安全系统。在人类需要与机器交互的任何地方，这项技术都会很有帮助。

9 为什么语音识别好？

语音识别技术提高了用户的工作效率。它捕捉人类语音的速度比我们打字的速度要快得多。此外，当您的手忙于其他工作时，您可以与您的设备交谈，同时执行两个操作。对于不能用手的残疾人来说，这是必不可少的。它们从安全方面增加了一层额外的可靠性，因为伪造独特的声纹并不容易。

10 语音识别的优缺点

语音识别是一门相对较新的科学。它已经从能够识别单一语言中的数十个单词的简单程序发展为基于人工智能的复杂系统。几十年来，它得到了长足的发展，并开始解决更广泛的任务。尽管如此，要改进它还有很多工作要做。让我们总结一下它有哪些优点和缺点。

10.1 语音识别优势

提高企业的生产力；自动化企业和客户之间的互动；添加额外的安全级别；捕捉语音的速度比人类打字的速度更快；帮助残疾人；帮助控制您的家庭设备；协助驾驶员使用车内 ASR 系统等。

10.2 语音识别的缺点

如果说话者说话快速且不清楚，系统将无法完全识别语音；需要大词汇量来提高识别准确率；每种语言都需要单独的 ASR 培训；企业可以在未经其许可的情况下收集和使用用户的语音数据；时间和财务成本高；ASR 软件消耗大量内存并需要大量 RAM。

11 语音识别技术应用

我们谈到了语音识别系统的广泛使用。让我们看看它在特定领域有哪些应用。

11.1 卫生保健

在医学上，语音识别主要用于编写患者文档。存在两种不同的文档过程方法。

前端文档是将语音实时翻译成文本的过程。在这种情况下，系统更有可能出错。医生必须修正文本。所以最好用它来做个人笔记；
后端文档的作用相同，但还将说话者的录音附加到文本中。系统提供文本草稿，以便医生修复错误。

11.2 军队

在这个领域，它主要用于对机器和设备的指挥和控制。语音命令要快得多。在战斗中，这可以在赢得战斗中发挥关键作用。

11.3 教育用途

学生可以在学习语言的同时检查他们的发音。它可以帮助避免语法、标点错误。编写大文本的挑战性较小。学生可以输入大文本而不会感到疲倦。

11.4 残疾人

手残学生或盲人可以不受限制地书写。 ASR 使他们能够跟上学习进度。

11.4 车载系统

汽车中的语音识别降低了道路上发生事故的风险。诸如拨号、使用 MP3 播放器或收音机等操作无需将手从方向盘上移开。

11.5 语音控制的视频游戏

它可以帮助您学习游戏。玩家需要时间来记住游戏控制键。相反，他们可以使用语音命令。

12 不同语音识别（虚拟助手）软件

虚拟助理系统相当复杂且昂贵。科技巨头的解决方案主要主导市场。让我们了解一下他们。

APPLE'S SIRI

此个人助理仅适用于 Apple 用户。它首先出现在 iPhone 4S 中，并成为新 Apple 产品不可或缺的一部分。 Siri 可以在 Twitter 或 Facebook 上发帖、解决复杂的数学问题、保存笔记、进行预订等。

AMAZON ALEXA

亚马逊正在运送带有 Alexa 的智能扬声器。它于年首次亮相。与 Siri 不同，它可以集成到第三方设备中。它能够进行语音交互、管理在线购物和音乐播放。它还可以控制多个智能设备。

MICROSOFT'S CORTANA

它是微软于年发布的虚拟助手，主要供 Windows 操作系统用户使用，但也适用于 Android 和 IOS 用户。 Cortana 允许您管理日历、在 Microsoft Teams 中加入会议、设置提醒以及在计算机上打开应用程序。

GOOGLE ASSISTANT

Google 通过 Google Now 开始了创建虚拟助手的旅程。这是谷歌搜索的一项功能，允许用户使用语音搜索信息。几年后，谷歌停止了该项目的开发，并于年发布了 Google Assistant。它最初被集成到 Google Home 智能扬声器和 Google Pixel 智能手机中。

NUANCE'S DRAGON ASSISTANT ANDDRAGON NATURALLY SPEAKING

Dragon Naturally speak 是由 Nuance Communications 开发的语音识别软件。在本文前面，我们提到了 Dragon Dictate 应用程序。多年来，它得到了改进，现在被称为龙自然说话。该公司还为个人电脑提供个人助理 Dragon Assistant。

13 语音识别需要训练吗？

要使用语音识别系统，您不需要长时间的培训课程。互联网上有很多关于如何启用和使用它们的信息。它们可以在制造商的官方网站或其他平台上找到。这里有一些有用的链接。

Apple 关于如何在 MAC 上使用语音控制的文章。 Youtube 上的视频；一篇关于如何在 Windows 上使用语音控制和 Youtube 上的视频的文章；Nuance 通信产品的在线大学。

14语音识别技术的未来用途

语音识别的未来非常有前景。 ASR 系统不仅可以识别单词，还可以识别一个人的情绪。语音识别将应用于航空航天、家庭自动化、机器人、远程信息处理和视频游戏等领域。

参考文章：

What is Voice Recognition? Voice & Speech Recognition Overview — RecFaces

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。