A. 声纹识别技术主要技术部分有哪些
声纹主要的技术难点在于如何对语音信号进行说话人相关的信息提取和表示。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行:
B. 求最强大脑小度大战孙亦廷声纹识别技术解析
本次最强大脑人机挑战的项目是听声识人,背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术,是通过测试、采集声音的波形和变化,与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发,主要用于军事情报领域。随着技术发展,逐步在法医鉴定、法庭证据等领域得到广泛使用。
本次声纹识别的难度
可能大家最感兴趣的是,最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素,如下:
1、噪音问题
2、多人唱歌
3、声音记忆遗忘
4、特征迁移
排名第一的是噪音问题,包括现场噪音和音乐噪音,这个比上场人脸识别的影响更大(上期存在着光线的影响),音乐本身也会影响机器和选手的判断;第二是多人唱歌,众所周知,声纹的识别主要靠频谱特征,而多人会出现频谱混叠的现象,使得特征分离和识别难度较大;第三,主要是对人类选手的影响,一般的人记忆时间的序列会比空间的要难,尤其是在记忆三串声音序列后,容易出现混淆,这也是为什么doctorWei一再希望小宝多听几遍的原因;最后说下特征迁移,挑战中是通过记忆说话,到辨识唱歌。而往往人们说话和唱歌声纹是不同的,这就存在一个特征迁移的问题,对应到我们的两位选手需要一定的归纳推理能力。
以上4个因素使得最终结果不是那么完美,但是也正是这些不完美才会让我们在技术上不断进步,不断超越过去的自己。