導(dǎo)讀:人類認識世界是通過把外界各種獨立的刺激聯(lián)系起來構(gòu)成一個整體,以獲得全面的信息和含義。語言是具有層次性的,在多重層面上按照詞法、句法、語義和語用原則,進行字組詞、詞組短語和句子。人腦可以有效地處理并理解語言(語音),計算機語言(語音)信息處理沒有人類那樣有效
人類認識世界是通過把外界各種獨立的刺激聯(lián)系起來構(gòu)成一個整體,以獲得全面的信息和含義。語言是具有層次性的,在多重層面上按照詞法、句法、語義和語用原則,進行字組詞、詞組短語和句子。人腦可以有效地處理并理解語言(語音),計算機語言(語音)信息處理沒有人類那樣有效。根據(jù)人腦理解語言過程的認知機理,人類理解語言(語音)需要知識(包括世界知識、歷史知識、常識性知識、各學(xué)科門類的專業(yè)知識等)。
在過去的幾十年里計算機自然語言處理幾乎都是用句法和語義信息進行自然語言理解的,而語用知識是人類理解自然語言不可或缺的重要組成部分,缺少這部分語用信息使語言的理解能力大大受限,很多歧義的詞句和篇章只有在充分利用這些語用知識時才能有效地得到解決。要準(zhǔn)確理解自然語言,需要把句法分析和語義理解與具體語境的語用信息相結(jié)合。
語用信息研究的瓶頸是如何用計算機將人類的各種知識進行有效的特征提取和形式化的知識表達,過去這一挑戰(zhàn)性工作一直困擾著我們,導(dǎo)致計算機無法像人腦一樣靈活運用語用背景知識來解決自然語言中的各種歧義。
隨著互聯(lián)網(wǎng)及云技術(shù)的飛速發(fā)展,給人類知識的形式化表征帶來了新的曙光。當(dāng)前谷歌、百度、中科院軟件所和清華大學(xué)等單位正在建立與人類知識相對應(yīng)的大規(guī)模知識圖譜,包括語言知識圖譜,事實性知識圖譜(Freebase已建立4000多萬個實體,上萬個屬性關(guān)系,24億多個事實三元組,百度百科的詞條數(shù)已1000萬個),其目的就是建模人腦中的世界知識,讓計算機能夠簡潔快速地獲取新的信息和知識,包括機讀的語用特征信息,運用語用背景知識來解決語言理解中的各種歧義,由機器自動理解語言的真實含義。
知識圖譜可應(yīng)用于問答系統(tǒng)、智能搜索引擎和自動推理等。將可機讀的知識圖譜融入到語音識別中的語言模型之中,為語音理解提供消除歧義的各類知識,相信會取得一些突破性的進展。
相比國外,國內(nèi)在人工智能語音識別方面差距不大,其原因是在當(dāng)前的互聯(lián)網(wǎng)和云計算時代,各種信息和資源共享給國內(nèi)外各研究單位提供了便利,加速了研發(fā)周期,在每年的AAAI,ACL,ICASSP等會議提供了理論和技術(shù)上交流,有些會議還定期提供語音識別、機器翻譯等系統(tǒng)評測平臺。
中科院聲學(xué)所、自動化所以及清華大學(xué)等單位比較突出的博士生在理論和技術(shù)水平上也接近歐美的水平,百度、亞洲微軟研究院等國內(nèi)高技術(shù)互聯(lián)網(wǎng)信息研究單位提供高薪為高技術(shù)人才提供了與國際接軌的研究平臺。相信AI和語音識別等領(lǐng)域的發(fā)展將會對社會的發(fā)展和人類生活的改善發(fā)揮越來越大的作用。