應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

谷歌研發(fā)開源揚(yáng)聲器Diarization AI技術(shù)

2018-11-27 14:24 前瞻網(wǎng)

導(dǎo)讀:在最近的一篇博客中,谷歌宣布他們已經(jīng)開源了他們的揚(yáng)聲器Diarization技術(shù),該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個(gè)參與者的音頻流劃分為每個(gè)參與者的同質(zhì)段來實(shí)現(xiàn)這一點(diǎn)。

在最近的一篇博客中,谷歌宣布他們已經(jīng)開源了他們的揚(yáng)聲器Diarization技術(shù),該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個(gè)參與者的音頻流劃分為每個(gè)參與者的同質(zhì)段來實(shí)現(xiàn)這一點(diǎn)。

將語音劃分成同質(zhì)段有許多應(yīng)用。谷歌的研究科學(xué)家Chong Wang解釋說:

通過解決“誰說了什么時(shí)候”的問題,說話人二值化在許多重要場景中都有應(yīng)用,如理解醫(yī)療對話、視頻字幕等。

能夠準(zhǔn)確地分割會(huì)話可以提高在線和離線Diarization系統(tǒng)的質(zhì)量。這種好處在醫(yī)療保健行業(yè)有很多實(shí)際的好處,正如最近的年報(bào)家庭醫(yī)學(xué)雜志報(bào)道的那樣:

醫(yī)生通常在11個(gè)小時(shí)的工作日里花6個(gè)小時(shí)在電子健康檔案(EHR)上。因此,一項(xiàng)研究發(fā)現(xiàn),接受調(diào)查的醫(yī)生中,超過一半的人報(bào)告至少有一種倦怠癥狀。

使用監(jiān)督學(xué)習(xí)方法來訓(xùn)練語音聽寫系統(tǒng)在歷史上一直具有挑戰(zhàn)性,Wang解釋了原因:

使用監(jiān)督學(xué)習(xí)方法對這些系統(tǒng)進(jìn)行訓(xùn)練是具有挑戰(zhàn)性的——與標(biāo)準(zhǔn)的監(jiān)督分類任務(wù)不同,穩(wěn)健的Diarization模型需要將新個(gè)體與未參與訓(xùn)練的不同語音片段關(guān)聯(lián)起來。重要的是,這限制了在線和離線Diarization系統(tǒng)的質(zhì)量。

在流媒體音頻輸入上使用在線揚(yáng)聲器Diarization,可以檢測不同揚(yáng)聲器,如下圖所示,在底部軸上用不同顏色表示不同的揚(yáng)聲器。

谷歌開發(fā)了一篇名為《Fully Supervised Speaker Diarization》的研究論文,他們引入了一種新的模型,這種模型比傳統(tǒng)方法更有效地使用監(jiān)督揚(yáng)聲器標(biāo)簽。在這個(gè)模型中,會(huì)進(jìn)行一個(gè)評(píng)估,確定參與會(huì)話的說話者的數(shù)量,從而增加標(biāo)記數(shù)據(jù)的數(shù)量。

作為NIST SRE 2000 CALLHOME基準(zhǔn)測試的一部分,谷歌的技術(shù)實(shí)現(xiàn)了低至7.6%的Diarization錯(cuò)誤率,其中Diarization錯(cuò)誤率被定義為“被Diarization輸出錯(cuò)誤標(biāo)記的輸入信號(hào)的百分比”。最近的結(jié)果是對基于聚類的方法獲得的8.8%的Diarization錯(cuò)誤率和使用深度神經(jīng)網(wǎng)絡(luò)嵌入方法獲得的9.9%Diarization錯(cuò)誤率進(jìn)行了改進(jìn)。

現(xiàn)代揚(yáng)聲器Diarization系統(tǒng)通常利用聚類算法,如k均值或光譜聚類。Wang解釋了使用這些方法的一些缺點(diǎn):

由于這些聚類方法是非監(jiān)督的,不能很好地利用數(shù)據(jù)中可用的監(jiān)督說話人標(biāo)簽。此外,在線聚類算法通常在流媒體音頻輸入的實(shí)時(shí)Diarization應(yīng)用中質(zhì)量較差。該模型與常用聚類算法的關(guān)鍵區(qū)別在于,該方法采用參數(shù)共享遞歸神經(jīng)網(wǎng)絡(luò)(RNN)對所有說話人的嵌入進(jìn)行建模,并利用在時(shí)域內(nèi)交叉的不同RNN狀態(tài),對不同的說話人進(jìn)行區(qū)分。

為了說明這個(gè)模型是如何工作的,考慮4個(gè)不同的揚(yáng)聲器(該模型可以支持未知數(shù)量的揚(yáng)聲器),每個(gè)揚(yáng)聲器都用自己的顏色(藍(lán)色、黃色、粉色和綠色)表示。每個(gè)揚(yáng)聲器都有自己的RNN實(shí)例,其中初始狀態(tài)在所有揚(yáng)聲器之間共享。一個(gè)演講者將繼續(xù)更新他們的RNN,直到另一個(gè)演講者開始講話。例如,藍(lán)色的音箱可以開始對話,直到它轉(zhuǎn)換到黃色音箱為止。在這兩個(gè)時(shí)間段內(nèi),每個(gè)發(fā)言者在發(fā)言時(shí)都會(huì)更新他們的RNN。當(dāng)對話從一個(gè)發(fā)言者轉(zhuǎn)換到另一個(gè)發(fā)言者時(shí),所有參與者都會(huì)出現(xiàn)這種情況。

Wang解釋了為什么使用RSS狀態(tài)很重要:

將說話人表示為RNN狀態(tài)使我們能夠使用RNN參數(shù)學(xué)習(xí)不同說話人和話語之間共享的高級(jí)知識(shí),這保證了更多標(biāo)記數(shù)據(jù)的有用性。與此相反,常見的聚類算法幾乎總是獨(dú)立地處理單個(gè)話語,因此很難從大量標(biāo)記數(shù)據(jù)中獲益。

下一步,谷歌將繼續(xù)降低Diarization錯(cuò)誤率,整合上下文信息進(jìn)行離線解碼。為了進(jìn)一步了解揚(yáng)聲器Diarization技術(shù),谷歌發(fā)表了一篇論文,并在GitHub上提供了它的源代碼。