A. 聲紋識別技術主要技術部分有哪些
聲紋主要的技術難點在於如何對語音信號進行說話人相關的信息提取和表示。一般而言對一段語音說話人相關特徵的提取主要是按照如圖所示的流程進行:
B. 求最強大腦小度大戰孫亦廷聲紋識別技術解析
本次最強大腦人機挑戰的項目是聽聲識人,背後的技術背景是聲紋識別技術。實際上聲紋識別是一種行為識別技術,是通過測試、採集聲音的波形和變化,與登記過的聲音模板進行匹配。該項技術最早由40年代末的貝爾實驗室開發,主要用於軍事情報領域。隨著技術發展,逐步在法醫鑒定、法庭證據等領域得到廣泛使用。
本次聲紋識別的難度
可能大家最感興趣的是,最強人工智慧的小度和我們的小選手小寶3題只對了1題。這里我簡單說下影響大家發揮的因素,如下:
1、噪音問題
2、多人唱歌
3、聲音記憶遺忘
4、特徵遷移
排名第一的是噪音問題,包括現場噪音和音樂噪音,這個比上場人臉識別的影響更大(上期存在著光線的影響),音樂本身也會影響機器和選手的判斷;第二是多人唱歌,眾所周知,聲紋的識別主要靠頻譜特徵,而多人會出現頻譜混疊的現象,使得特徵分離和識別難度較大;第三,主要是對人類選手的影響,一般的人記憶時間的序列會比空間的要難,尤其是在記憶三串聲音序列後,容易出現混淆,這也是為什麼doctorWei一再希望小寶多聽幾遍的原因;最後說下特徵遷移,挑戰中是通過記憶說話,到辨識唱歌。而往往人們說話和唱歌聲紋是不同的,這就存在一個特徵遷移的問題,對應到我們的兩位選手需要一定的歸納推理能力。
以上4個因素使得最終結果不是那麼完美,但是也正是這些不完美才會讓我們在技術上不斷進步,不斷超越過去的自己。