目录
声纹识别背景介绍声纹识别组成数据特征模型 评价指标声纹识别目前的挑战参考文献声纹识别背景介绍
声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。在现实生活中声纹识别的应用任务非常广泛,主要可以分为以下几个:
说话人鉴别,这是一个一对多的任务,通过输入一段说话人声音判断这段声音属于哪个人(即你是谁?)。实际应用主要有刑侦破案,智能客服以及智能家居等。说话人确认,这是一个一对一的任务,通过输入一段话来判断这段话是否为系统中设定的人所说的(即你是不是你?)。实际应用有账号登录,机主核对等。该评价指标和说话人鉴别都采用等错误率(EER)以及最小检测代价(minDCF)。说话人聚类,这个任务是将大量的语音进行聚类,在无监督的情况下将同一个说话人的语音聚合到一起。实际应用非常广泛,如通话录音,会议场景等。评价指标一般为分离错误率(DER)。
在说话人鉴别和说话人确认中,还可以分为文本相关和文本无关。文本相关就是限定说话人所说话的内容,而文本无关则不限定。