技術(shù)
導(dǎo)讀:在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場(chǎng)從2018年底基本宣告進(jìn)入三足鼎立時(shí)代,百度小度、阿里天貓精靈、小米的小愛(ài)成為市面上收割絕大部分市場(chǎng)的三巨頭。
【編者按】我們可以從技術(shù)邏輯上來(lái)認(rèn)識(shí)這樣一個(gè)智能音箱市場(chǎng)的產(chǎn)業(yè)現(xiàn)狀:關(guān)于智能音箱未來(lái)在哪里,答案可以有很多選擇。
智能音箱市場(chǎng)上,風(fēng)起云涌的變化還在繼續(xù)。
根據(jù)Canalys、Strategy Analytics、IDC三家機(jī)構(gòu)提供的市場(chǎng)數(shù)據(jù),2019年Q1小度系列智能音箱出貨量躍居中國(guó)第一、全球第三。
在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場(chǎng)從2018年底基本宣告進(jìn)入三足鼎立時(shí)代,百度小度、阿里天貓精靈、小米的小愛(ài)成為市面上收割絕大部分市場(chǎng)的三巨頭。
很多媒體與評(píng)論者都認(rèn)定,今天這個(gè)階段,智能音箱已經(jīng)陷入膠著的同質(zhì)化競(jìng)爭(zhēng),巨頭的主要任務(wù)就是提高補(bǔ)貼和性價(jià)比、多找流量明星代言、多與家電和車(chē)企聯(lián)動(dòng)。甚至認(rèn)為如今智能音箱已經(jīng)越來(lái)越難完成硬件創(chuàng)新,市場(chǎng)和營(yíng)銷變成了唯一的突破口。
然而事實(shí)果真如此嗎?智能音箱是否真的已經(jīng)抵達(dá)了紅海的末尾,只能靠外部玩法續(xù)命?
2019百度AI開(kāi)發(fā)者大會(huì)(Baidu Create 2019)上,百度副總裁、百度智能生活事業(yè)群組(SLG)總經(jīng)理景鯤正式發(fā)布小度助手(DuerOS)5.0。在這次升級(jí)中,我們至少可以從技術(shù)邏輯上來(lái)認(rèn)識(shí)這樣一個(gè)智能音箱市場(chǎng)的產(chǎn)業(yè)現(xiàn)狀:關(guān)于智能音箱未來(lái)在哪里,答案可以有很多選擇。
向音箱內(nèi)部,向技術(shù)體驗(yàn),向AI的宏觀曲線,還有眾多變數(shù)籠罩在音箱市場(chǎng)背后。而技術(shù)升級(jí)能力在這一新興市場(chǎng)中的杠桿作用,可能遠(yuǎn)比外界認(rèn)識(shí)的更加重要。
AI交互,從未標(biāo)記為“已解決”
近兩年,我們開(kāi)始習(xí)慣手機(jī)與音箱中的AI語(yǔ)音交互。然而,人類開(kāi)始研究對(duì)話式AI的歷史,可以追溯到上世紀(jì)50年代貝爾實(shí)驗(yàn)室的Audry系統(tǒng)。當(dāng)時(shí)研究者們判斷對(duì)話AI具有三大難題:?jiǎn)卧~識(shí)別、句子的理解、從語(yǔ)言分析對(duì)話方意圖的能力。
歷經(jīng)了50年曲折的AI技術(shù)發(fā)展,最終人類搞定了詞義識(shí)別這件事。但如果說(shuō)今天的智能音箱,已經(jīng)缺乏硬件創(chuàng)新可能,人機(jī)對(duì)話能力將停留于此,那毫無(wú)疑問(wèn)是過(guò)分自大的。
客觀來(lái)看,今天的智能音箱產(chǎn)品,在交互的自然、流暢與可持續(xù)能力上,依舊具有極大的阻礙,每一臺(tái)設(shè)備的語(yǔ)音交互都不足以稱為完整形態(tài)。主要來(lái)看,有三大問(wèn)題縈繞在智能音箱左右:
1、喚醒效率問(wèn)題。是否能適應(yīng)遠(yuǎn)場(chǎng)與復(fù)雜聲源環(huán)境的喚醒。這是一個(gè)軟硬一體化問(wèn)題,需要算法創(chuàng)新與芯片側(cè)的聯(lián)合創(chuàng)新。
2、語(yǔ)義理解的深度問(wèn)題。這個(gè)問(wèn)題決定了對(duì)話是否能被理解,方言、個(gè)性化的語(yǔ)言習(xí)慣、中英夾敘、復(fù)雜長(zhǎng)句的理解等領(lǐng)域構(gòu)成了這一問(wèn)題的主要挑戰(zhàn)。
3、機(jī)器記憶體驗(yàn)的問(wèn)題。這個(gè)問(wèn)題決定了對(duì)話是否能夠持續(xù),主要挑戰(zhàn)包括機(jī)器能否有效記憶、篩選文本和跨時(shí)間保留對(duì)話。
三大基礎(chǔ)標(biāo)準(zhǔn)之外,多種AI技術(shù)的交互融合則構(gòu)成了未來(lái)智能音箱的技術(shù)體驗(yàn)。包括語(yǔ)音與視覺(jué)的結(jié)合,例如結(jié)合唇語(yǔ)的視覺(jué)識(shí)別來(lái)提升語(yǔ)音交互準(zhǔn)確度一;以及語(yǔ)音與知識(shí)的結(jié)合,比如機(jī)器能否理解用戶表達(dá)的專用詞匯、形容式表達(dá)以及暗示。
這些問(wèn)題的廣泛存在,讓智能音箱不能停留在今天??陀^來(lái)說(shuō),不管媒體和評(píng)論者是否認(rèn)為今天的智能音箱普遍缺乏創(chuàng)新能力,小度助手,一直沒(méi)有停下解決最核心技術(shù)問(wèn)題的努力。
去年7月,小度助手發(fā)布了3.0版本。其核心技術(shù)特點(diǎn)是在自然交互能力上進(jìn)行了升級(jí),強(qiáng)調(diào)自然語(yǔ)言處理能力支持下的深度語(yǔ)義分析,并且輸出為極客模式、兒童模式等差異化體驗(yàn)。
事實(shí)上,小度助手3.0就可以看作對(duì)上述第二個(gè)問(wèn)題進(jìn)行的集中攻堅(jiān),以自然語(yǔ)言處理技術(shù),結(jié)合多模態(tài)技術(shù)解決語(yǔ)義理解體驗(yàn)深度。
而在剛剛發(fā)布的小度助手5.0中,對(duì)于前兩個(gè)問(wèn)題都給出了新的答案。在聽(tīng)清方面,小度助手如約引入了百度首創(chuàng)的流式截?cái)嗟亩鄬幼⒁饬δP?SMLTA)。這個(gè)在AI圈中被稱為暴力到不講道理的模型,將極大程度增強(qiáng)小度助手的喚醒能力。搭配剛剛發(fā)布的語(yǔ)音芯片鴻鵠,未來(lái)喚醒之路上的小度助手還有很多底牌。
在聽(tīng)懂方面,結(jié)合百度NLP的知識(shí)增強(qiáng)語(yǔ)義表示模型ERNIE,小度助手的核心理解算法全面升級(jí)為超大數(shù)據(jù)預(yù)訓(xùn)練深度模型,并且通過(guò)融合百度全網(wǎng)搜索能力與大規(guī)模精準(zhǔn)用戶畫(huà)像,小度助手可以學(xué)習(xí)用戶畫(huà)像,不斷升級(jí)語(yǔ)義理解的個(gè)性化能力。
而面對(duì)問(wèn)題3,小度助手放出了刷屏級(jí)別的新技術(shù)——全雙工免喚醒能力。這讓小度助手5.0在可以理解更復(fù)雜語(yǔ)義的基礎(chǔ)上,能夠知道自己應(yīng)該何時(shí)被喚醒,何時(shí)保持沉默繼續(xù)等待命令。這一技術(shù)突破,指向人類之間對(duì)話時(shí)的“拒絕反應(yīng)”,是因?yàn)槿祟惸軌蛴涀∩舷挛?,不需要每一句都進(jìn)行回復(fù),才可以用沉默構(gòu)成交互的一部分。這個(gè)能力,指向著上述第三個(gè)問(wèn)題:機(jī)器記憶。
至此,智能音箱的排頭兵,已經(jīng)不必拘泥于“一問(wèn)一答”的機(jī)械模式,而是走入類似真人對(duì)話的連續(xù)交互。
梳理一下不難發(fā)現(xiàn),小度助手不僅沒(méi)有喪失向內(nèi)尋求技術(shù)突破的能力,而且還是在以年為單位,連續(xù)性系統(tǒng)性地直面語(yǔ)音交互的根本問(wèn)題。而且小度助手的技術(shù)進(jìn)化,是呈現(xiàn)出與百度AI技術(shù)發(fā)展同頻特征的,都表現(xiàn)為通過(guò)多AI基礎(chǔ)技術(shù)融合,更高效算法模型的使用,以及平臺(tái)化、模塊化的技術(shù)特性。
讓我們先把小度助手5.0帶來(lái)的結(jié)論——“AI向內(nèi)創(chuàng)新,并非沒(méi)有可能”這句話放在這里。帶著它,我們可以重新審視一下今天三國(guó)鼎立的智能音箱市場(chǎng)。
同樣的中局,不同的終局
曾經(jīng)很多人認(rèn)為,千箱大戰(zhàn)無(wú)非是千篇一律的戰(zhàn)爭(zhēng),這東西非常簡(jiǎn)單,誰(shuí)都能做。結(jié)果很快缺乏技術(shù)和產(chǎn)品創(chuàng)新力的音箱品牌就大面積死亡。這時(shí)我們發(fā)現(xiàn),原來(lái)音箱之間還是有很大不同的。
到了今天,我們又認(rèn)為市面上剩下的三家主要音箱本質(zhì)是相同的,市場(chǎng)主旋律是膠著的補(bǔ)貼戰(zhàn)和流量戰(zhàn)。這種認(rèn)識(shí),似乎又回到了當(dāng)年的老路上。
如果說(shuō)當(dāng)年的音箱是遍地石子,今天的音箱就是三大雪球滾動(dòng)向前。我們需要注意的是,剝開(kāi)這三個(gè)雪球,會(huì)發(fā)現(xiàn)它們的核心完全不同。
小米的小愛(ài),包裹著IoT產(chǎn)品的連接;天貓精靈包括著電商和阿里生態(tài);而百度的核心是AI技術(shù),是對(duì)話式AI解決方案的持續(xù)進(jìn)化能力。
不同的核心,確立了不同的發(fā)展模式和市場(chǎng)行為。百度沒(méi)有阿里的電商狂歡,阿里沒(méi)有小米鋪天蓋地的IoT生態(tài),而小米的音箱也不太可能具備小度的拒絕反應(yīng)和機(jī)器記憶能力。
雖然在音箱普及階段的推廣和促銷是各家都不可避免的,但是細(xì)致拆分下來(lái)每家的重點(diǎn)其實(shí)從來(lái)不曾重合。比如說(shuō),回看一下最近的新聞,我們會(huì)發(fā)現(xiàn)天貓精靈在主推方糖R型號(hào),用明星定制化的特點(diǎn)來(lái)主推粉絲電商。而小愛(ài)在連接更多的IoT設(shè)備,最新上線的是按摩椅。小度助手則在上線新硬件的同時(shí),解決AI交互中的機(jī)器記憶問(wèn)題。
與眾多媒體認(rèn)為的音箱紅海正相反。真正的音箱三巨頭之爭(zhēng),是營(yíng)銷好做、明星好請(qǐng),但內(nèi)在的技術(shù)與產(chǎn)品價(jià)值核心卻不好替換。
如果說(shuō)三家音箱是三個(gè)雪球,天貓精靈可以被稱作“新零售雪球”,小愛(ài)叫做“米家雪球”,而小度則更適合“AI技術(shù)雪球”這個(gè)稱呼。
從頭到尾,智能音箱的中局就是一場(chǎng)差異化競(jìng)爭(zhēng)。雖然目前在市場(chǎng)份額上似乎來(lái)到了驅(qū)動(dòng)的臨界點(diǎn),但接下來(lái)的走向,更可能是“你打你的,我打我的”,甚至各自把智能音箱打成截然不同的東西。
不同的內(nèi)核,定會(huì)裹挾不同的外層,通往不同的方向。
技術(shù)雪球里的小度,要向何處去?
事實(shí)上,內(nèi)核差異已經(jīng)影響到了音箱市場(chǎng)的產(chǎn)品表現(xiàn)與市場(chǎng)競(jìng)爭(zhēng)格局。比如說(shuō)小度出貨量偏向長(zhǎng)線持續(xù)增長(zhǎng),原因之一在于小度系列的技術(shù)體驗(yàn)更突出,容易引發(fā)口碑傳播。
我們可以以技術(shù)雪球里的小度助手為例,看看它的內(nèi)核會(huì)將智能音箱的未來(lái)帶到何處。
小度的技術(shù)差異化,體現(xiàn)在產(chǎn)品中可以歸納為三方面:底層技術(shù)能持續(xù)進(jìn)化、技術(shù)與技能開(kāi)放平臺(tái)、軟硬一體化能力。這三個(gè)能力,正在將多方面的市場(chǎng)與生態(tài)差異化納入小度雪球的范圍:
1、底層技術(shù)升級(jí),連接的是用戶體驗(yàn)的差異化。小度系列為什么不同,可以輕松用幾句對(duì)話感覺(jué)到。這讓小度更適合口碑傳播和體驗(yàn)式傳播,造成了小度的一系列品牌建設(shè)順利展開(kāi),市場(chǎng)銷量持續(xù)快進(jìn)。
2、基于技術(shù)模塊化打造的技術(shù)與技能平臺(tái),連接的是內(nèi)容和開(kāi)發(fā)者、IoT設(shè)備。三者可以更低門(mén)檻接入小度生態(tài),完整利用小度的技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為自身優(yōu)勢(shì)。比如,小度助手5.0帶來(lái)了更好的技能開(kāi)發(fā)體驗(yàn)。面向開(kāi)發(fā)者的全雙工免喚醒能力使得人機(jī)交互更加自然,用戶的交互成本降低一半;DPL(DuerOS Presentation Language)則讓開(kāi)發(fā)者可以自定義技能的視覺(jué)展現(xiàn)。在開(kāi)發(fā)門(mén)檻不斷降低、開(kāi)發(fā)體驗(yàn)和想象力不斷飆升的情況下,最終可以看到小度用戶的沉浸時(shí)間更長(zhǎng),連接設(shè)備更廣泛,并且消費(fèi)者應(yīng)用第三方技能的時(shí)間不斷增加。平臺(tái)的技術(shù)便捷與高可用,構(gòu)成了小度吸引開(kāi)發(fā)者的核心價(jià)值。
3、軟硬一體化的技術(shù)架構(gòu),連接著硬件能力與核心算法模型的排列組合能力。新的硬件形態(tài)、新的硬件能力,比如帶屏、投影等,可以更快接入核心算法層。在本屆百度AI開(kāi)發(fā)者大會(huì)上,小度系列又推出了小度智能音箱大金剛、小度智能音箱Play、小度在家1C 4G版,這些新產(chǎn)品滿足了不同人群和場(chǎng)景的需要,同時(shí)都具備投屏功能,可以一句話連接電視,一句話點(diǎn)播視頻,無(wú)縫連接小米、海信、創(chuàng)維、TCL等主流智能電視品牌。小度助手能夠源源不斷推出新品、新硬件能力的原因,是底層技術(shù)架構(gòu)的模塊化與平臺(tái)化。
可以看到,小度能夠在不同領(lǐng)域后來(lái)居上,根本跳板是對(duì)話式AI底層技術(shù)與平臺(tái)化的領(lǐng)先性與持續(xù)進(jìn)化能力。這種能力的延展性很廣闊,甚至現(xiàn)在已經(jīng)有人說(shuō)在小度的技術(shù)能力下,智能音箱已經(jīng)完全不像是我們印象中的那種產(chǎn)品,達(dá)成了音箱不只是音箱的開(kāi)始。
目前來(lái)看,小度代表的技術(shù)進(jìn)化通道在產(chǎn)業(yè)內(nèi)不具備可復(fù)制性。而與其他競(jìng)品所代表的能力相比,到底哪種雪球會(huì)來(lái)滾動(dòng)到最遠(yuǎn),可能還是要交給時(shí)間來(lái)審視。
但有個(gè)邏輯或許可以在今天進(jìn)行類比:音箱到底是什么,能走到哪里;是一兩年的玩物,還是三五年的風(fēng)口,抑或如同冰箱電視一樣永遠(yuǎn)放在生活中的不可替代品?
想回答這個(gè)問(wèn)題,我們可以想想當(dāng)年的電視。如果電視永遠(yuǎn)停留在12寸黑白的時(shí)代,那么沒(méi)有幾年它就將遭到膩煩,沉睡于垃圾箱和博物館。今天我們依舊在孜孜以求地購(gòu)買(mǎi)合適的電視產(chǎn)品,原因在于電視的技術(shù)在進(jìn)化,電視生態(tài)在發(fā)展。
技術(shù)進(jìn)化是一切的開(kāi)始,電視產(chǎn)品的技術(shù)進(jìn)步,才能帶動(dòng)電視網(wǎng)絡(luò)、電視內(nèi)容、周邊產(chǎn)業(yè)(比如游戲機(jī)、音響)的滾動(dòng)進(jìn)步。
智能音箱正處在同樣的階段。向內(nèi)尋找答案,以技術(shù)撬動(dòng)進(jìn)步或許是接下來(lái)很多故事不能或缺的前提條件。
電視可以永遠(yuǎn)12寸黑白,也可以是8k高清的家庭娛樂(lè)平臺(tái)。智能音箱可能不是音箱,只是會(huì)一問(wèn)一答交互,套用模板觸發(fā)語(yǔ)音指令的“人工智障玩具”;音箱也可能不是音箱,而是能滔滔不絕聊下去,背靠海量技能與IoT設(shè)備的家庭智慧中樞。
技術(shù)進(jìn)化,是前后二者唯一的差別。