技術(shù)
導(dǎo)讀:一場(chǎng)由語(yǔ)音交互的變革看起來(lái)勢(shì)在必行了。
圖片來(lái)自“123RF”
通過(guò)語(yǔ)音控制技術(shù),更多型式的智能裝置得以在家中的生活空間取得更大的地位,更多物聯(lián)網(wǎng)裝置得以更容易地進(jìn)入家庭領(lǐng)域。未來(lái),離線語(yǔ)音以及離線加在線語(yǔ)音等多種語(yǔ)音形式,將更加廣泛地應(yīng)用于智能家居、智能辦公等多種場(chǎng)景。
現(xiàn)在“會(huì)說(shuō)話”的公共設(shè)施會(huì)越來(lái)越多,未來(lái)每一個(gè)空間都至少會(huì)有一個(gè)可以進(jìn)行語(yǔ)音交互的觸點(diǎn)。語(yǔ)音技術(shù)的需求也隨之提高,在線語(yǔ)音后的離線語(yǔ)音技術(shù)被視為智能家居新的增長(zhǎng)引擎便不足為奇了。
智能語(yǔ)音是智能家居的起點(diǎn)
國(guó)外的IT巨頭已先后以智能家庭產(chǎn)品與語(yǔ)音相結(jié)合的方式進(jìn)入智能家庭領(lǐng)域:
·谷歌收購(gòu)NEST布局智能家庭,不斷強(qiáng)化GoogleNow的語(yǔ)音入口;
·蘋果HomeKit智能家居平臺(tái)與Siri也不斷加強(qiáng)融合;
·微軟也發(fā)布了語(yǔ)音助手Cortana,為它在智能家庭領(lǐng)域擴(kuò)展交互入口。
而國(guó)內(nèi)2014年語(yǔ)音巨頭科大訊飛就宣布進(jìn)軍智能家庭市場(chǎng),并發(fā)布了智能語(yǔ)音助手靈犀3.0來(lái)操控智能家居設(shè)備。
由于整個(gè)市場(chǎng)的價(jià)格競(jìng)爭(zhēng)比較激烈,基于智能音箱通過(guò)藍(lán)牙m(xù)esh的方式推廣的智能音箱中心化控制的語(yǔ)音聲控類的產(chǎn)品價(jià)格競(jìng)爭(zhēng)尤其明顯,利潤(rùn)逐步被稀釋。無(wú)論是Google、Apple或是微軟等平臺(tái)業(yè)者,透過(guò)語(yǔ)音控制技術(shù)讓更多型式的智能裝置能在家中的生活空間取得更大的地位,讓更多物聯(lián)網(wǎng)裝置更容易進(jìn)入家庭的領(lǐng)域。所以語(yǔ)音助理的應(yīng)用不僅為家庭生活帶來(lái)更多的驚奇,也進(jìn)而帶動(dòng)智能家居在目前有較明顯的進(jìn)展。
語(yǔ)音控制中的不良反饋
①智能音箱通過(guò)網(wǎng)絡(luò)在云端識(shí)別反饋的控制速度比較慢,通常網(wǎng)絡(luò)一般的情況下反饋時(shí)長(zhǎng)為300—500ms,網(wǎng)絡(luò)情況良好的情況下也有300ms左右。
②智能音箱通過(guò)半徑3米—5米內(nèi)才可以語(yǔ)音控制其他設(shè)備。假設(shè)智能音箱放在客廳,那控制臥室的燈必須要在客廳實(shí)現(xiàn),如果身處臥室想控制臥室的燈就比較麻煩。
③絕大多數(shù)的云端識(shí)別都會(huì)在后臺(tái)錄音,相當(dāng)于用戶在家里不知不覺(jué)的情況下聲音的隱私已經(jīng)被侵犯,并上傳到云端做了保存。這點(diǎn)在歐美和日本客戶那里的反饋比較明顯,國(guó)人也對(duì)聲音的隱私開始重視起來(lái)。
市場(chǎng)成熟后的需求變化
目前,智能家居已經(jīng)進(jìn)入市場(chǎng)推廣階段,并且有很多成熟項(xiàng)目不斷落地,行業(yè)發(fā)展前景可謂是日趨明朗。但是隨著智能門鈴、智能貓眼、智能廚房電器以及睡眠跟蹤記錄傳感器等設(shè)備的廣泛應(yīng)用,現(xiàn)在智能家居甚至已經(jīng)延伸到家庭中最私密的區(qū)域。
智能家居技術(shù)給人們?nèi)粘I顜?lái)了極大的便利,比如讓你知道加熱器是否打開或門有沒(méi)有鎖上等等,但這些連接的設(shè)備也帶來(lái)了許多安全問(wèn)題。語(yǔ)音控制作為智能家居入口,在控制過(guò)程中牽涉到網(wǎng)絡(luò)傳輸?shù)牟糠?,?duì)于智能家居系統(tǒng)是否安全起到至關(guān)重要的作用。
智能語(yǔ)音后的離線語(yǔ)音
離線的簡(jiǎn)單語(yǔ)音控制應(yīng)用在這幾個(gè)問(wèn)題上得到了有效的解決,通常家電和小家電的應(yīng)用場(chǎng)景的控制也只有幾個(gè)功能性動(dòng)作就能解決。應(yīng)用場(chǎng)景就是切入到用戶的這個(gè)需求點(diǎn),分布式地提供給用戶單個(gè)產(chǎn)品的針對(duì)性的聲音控制。不需要基于手機(jī)、智能音箱和網(wǎng)絡(luò)就可以通過(guò)聲音進(jìn)行控制。
·TOC領(lǐng)域包括高性價(jià)比智能音箱、全雙工網(wǎng)絡(luò)電話、AIOT智能家電、后裝車載智能語(yǔ)音助手等。家電控制(空調(diào)、洗衣機(jī)、冰洗、熱水器、風(fēng)扇等)并支持分布式語(yǔ)音控制和聯(lián)動(dòng)。
在網(wǎng)絡(luò)狀況不好或者沒(méi)有網(wǎng)絡(luò)的情況下,可以使用基礎(chǔ)控制的本地命令詞進(jìn)行離線控制。
·TOB領(lǐng)域包括酒店智能語(yǔ)音助手(云端語(yǔ)義針對(duì)酒店服務(wù)應(yīng)用可定制化,如:客房服務(wù)、訂餐服務(wù))包括可植入酒店空調(diào)、酒店控制面板、酒店客房電話等設(shè)備應(yīng)用。智能校園宿舍管理(云端可針對(duì)宿舍房間號(hào)定點(diǎn)推送上課通知、語(yǔ)音控制、網(wǎng)絡(luò)電話等)。
實(shí)際上,全屋智能的控制類產(chǎn)品都是離線語(yǔ)音的主戰(zhàn)場(chǎng)。離線主打控制,在線主打交互,是目前智能家居落地比較親民的一種模式。
各家不同的離線語(yǔ)音方案
·啟英泰倫:
CI110X 系列基于 NPU+MCU 架構(gòu)設(shè)計(jì),內(nèi)置升級(jí)了的腦神經(jīng)網(wǎng)絡(luò)處理器 BNPU v2,并新增了語(yǔ)音加速傳感器。CPU 主頻也較上一代的 100 MHz 提升到了 160MHz。
同時(shí)該芯片還集成多路 UART、I2C、SPI、PWM、GPIO 等外圍控制接口,可以開發(fā)低成本的單芯片智能語(yǔ)音離線識(shí)別方案?;?CI110X 系列芯片開發(fā)的產(chǎn)品,語(yǔ)音交互的基本功能可通過(guò)離線語(yǔ)音實(shí)現(xiàn),而語(yǔ)音內(nèi)容和服務(wù)則可以通過(guò)聯(lián)網(wǎng)實(shí)現(xiàn)。
·杭州國(guó)芯:
GX8008芯片是專為智能語(yǔ)音前端信號(hào)處理而設(shè)計(jì)的嵌入式SoC芯片,支持麥克風(fēng)陣列,集成專用于語(yǔ)音信號(hào)處理的DSP處理器,內(nèi)置處理前端信號(hào)的語(yǔ)音算法,可以讓傳統(tǒng)的設(shè)備保留其原先硬件的基礎(chǔ)上,通過(guò)一個(gè)簡(jiǎn)單的USB口實(shí)現(xiàn)語(yǔ)音能力的升級(jí)。
GX8009芯片是專為AI語(yǔ)音應(yīng)用設(shè)計(jì)的嵌入式SoC芯片,擁有獨(dú)特的多核異構(gòu)架構(gòu),集成自主產(chǎn)權(quán)的NPU神經(jīng)網(wǎng)絡(luò)處理器,用于語(yǔ)音信號(hào)處理的DSP處理器等模塊,使得產(chǎn)品能處理深度神經(jīng)網(wǎng)絡(luò)計(jì)算,離線運(yùn)行麥克風(fēng)陣列信號(hào)。
·思必馳:
TH1520主要面向智能家居、智能終端、車載、手機(jī)、可穿戴設(shè)備等各類終端設(shè)備。解決方案包含算法+芯片,具有完整語(yǔ)音交互功能,能實(shí)現(xiàn)語(yǔ)音處理、語(yǔ)音識(shí)別、語(yǔ)音播報(bào)等功能,支持離線語(yǔ)音交互。
·君正:
采用君正 X1000E 處理器,最高1GHz主頻,支持硬件浮點(diǎn),支持SIMD指令加速。可運(yùn)行各類語(yǔ)音識(shí)別、圖像識(shí)別、降噪、消回音、APE/FLAC解碼等算法。待機(jī)功耗2mW,平均運(yùn)行功耗200mW,最高運(yùn)行功耗700mW。
·互問(wèn):
LS416 是一顆高度集成化的語(yǔ)音處理芯片,內(nèi)置互問(wèn)離線語(yǔ)音識(shí)別引擎,支持多命令詞本地語(yǔ)音控制應(yīng)用。 內(nèi)置spi flash 和高性能codec,使用低成本輕量化神經(jīng)網(wǎng)絡(luò)語(yǔ)音處理單元,以及低功耗MCU,支持多種邏輯應(yīng)用開發(fā)。
W02x芯片是一款高度集成的本地語(yǔ)音系統(tǒng)級(jí)芯片(SoC),自研基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的本地喚醒和前端降噪算法,無(wú)需額外license。
離線語(yǔ)音技術(shù)需克服重重困難
離線語(yǔ)音解決的基本問(wèn)題包括本地語(yǔ)音識(shí)別、本地計(jì)算、部分的數(shù)據(jù)訓(xùn)練。相應(yīng)的,對(duì)于硬件的要求就是低功耗、低成本、快速響應(yīng)。
由于語(yǔ)音交互類的設(shè)備本身在產(chǎn)品形態(tài)上差異化很大,使用場(chǎng)景也呈現(xiàn)出碎片化的特點(diǎn),要為用戶提供自然的本地語(yǔ)音交互體驗(yàn),就要對(duì)不同的產(chǎn)品做出不同的語(yǔ)音控制命令,這些都需要通過(guò)修改代碼實(shí)現(xiàn),工作量可想而知。
再進(jìn)一步的讓設(shè)備達(dá)到用戶所需要的體驗(yàn),還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師。總而言之,是有不少開發(fā)門檻和開發(fā)成本的。
結(jié)尾:
到2023年,21%將擁有遠(yuǎn)程監(jiān)控和控制,設(shè)備支出將占智能家居設(shè)備總支出的52%。未來(lái),離線語(yǔ)音以及離線加在線語(yǔ)音等多種語(yǔ)音形式,將更加廣泛地應(yīng)用于智能家居、智能辦公等多種場(chǎng)景。
智能家居以家庭為單元,運(yùn)用多種信息技術(shù),達(dá)到監(jiān)控與信息交互的目的,在未來(lái),居住更加智能、消費(fèi)者的居住體驗(yàn)更加舒適,一場(chǎng)由語(yǔ)音交互的變革看起來(lái)勢(shì)在必行了。