導(dǎo)讀:在近期發(fā)表于bioRxiv的3篇論文中,3個(gè)研究團(tuán)隊(duì)各自展示了他們?nèi)绾螌⑸窠?jīng)活動(dòng)記錄解碼成語音。
在近期發(fā)表于bioRxiv的3篇論文中,3個(gè)研究團(tuán)隊(duì)各自展示了他們?nèi)绾螌⑸窠?jīng)活動(dòng)記錄解碼成語音。
北京時(shí)間2月12日消息,據(jù)國外媒體報(bào)道,神經(jīng)科學(xué)家正在教導(dǎo)計(jì)算機(jī)直接從人腦中讀出單詞。近日,《科學(xué)》(Science)雜志的專職撰稿人凱利·塞維克(Kelly Servick)報(bào)道了預(yù)印本網(wǎng)站bioRxiv發(fā)表的3篇論文。在論文中,3個(gè)研究團(tuán)隊(duì)各自展示了他們?nèi)绾螌⑸窠?jīng)活動(dòng)記錄解碼成語音。在這3個(gè)研究中,研究人員在進(jìn)行腦外科手術(shù)的患者大腦上直接放置了電極,當(dāng)他們聽取語音或者大聲朗讀文字時(shí),這些電極就記錄神經(jīng)元的活動(dòng)。接著,研究人員嘗試解讀患者聽到或說出的內(nèi)容,患者大腦的電活動(dòng)都轉(zhuǎn)化成了某種程度上能夠理解的聲音文件。
第一篇論文發(fā)表在bioRxiv上,描述了研究人員向正在進(jìn)行腦外科手術(shù)的癲癇患者播放語音的實(shí)驗(yàn)。需要指出的是,實(shí)驗(yàn)中采集的神經(jīng)活動(dòng)記錄必須非常詳細(xì),才能用于解讀。而且這種詳細(xì)的程度必須在十分罕見的條件(比如腦外科手術(shù))下才能達(dá)到,此時(shí)大腦暴露在空氣中,電極直接放在上面。
當(dāng)患者聽取聲音文件時(shí),研究人員記錄了患者大腦中處理聲音部分的神經(jīng)元活動(dòng)。他們嘗試了多種方法將神經(jīng)元活動(dòng)數(shù)據(jù)轉(zhuǎn)化成語音,發(fā)現(xiàn)“深度學(xué)習(xí)”的效果最佳。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,計(jì)算機(jī)可以在無人管理的情況下,通過深度學(xué)習(xí)來解決問題。當(dāng)研究人員通過一個(gè)合成人類聲音的聲碼器播放轉(zhuǎn)化結(jié)果時(shí),由11個(gè)聽眾組成的小組解讀這些詞的準(zhǔn)確率是75%。
第二篇論文采用的是正在進(jìn)行切除腦腫瘤手術(shù)的患者的神經(jīng)元記錄。當(dāng)患者大聲朗讀單音節(jié)詞時(shí),研究人員記錄了他們嘴里發(fā)出的聲音,以及他們大腦中發(fā)音區(qū)域的神經(jīng)元活動(dòng)。研究人員沒有訓(xùn)練計(jì)算機(jī)深度學(xué)習(xí)每一位患者的語音,而是教導(dǎo)人工神經(jīng)網(wǎng)絡(luò)將神經(jīng)記錄轉(zhuǎn)化成音頻文件。結(jié)果顯示,這些音頻文件至少在相當(dāng)程度上是可以理解的,并且類似麥克風(fēng)錄音的效果。以上這兩項(xiàng)研究的聲音文件都可以在網(wǎng)上下載。
第三篇論文采用的神經(jīng)元活動(dòng)記錄來自大腦中將決定說出的特定單詞轉(zhuǎn)化為肌肉運(yùn)動(dòng)的區(qū)域。盡管目前該實(shí)驗(yàn)的記錄還沒有在網(wǎng)上公布,但研究人員報(bào)道稱,他們成功重建了整個(gè)語句(也是在癲癇患者進(jìn)行腦外科手術(shù)時(shí)記錄的),而且聽到這些語句的人在多項(xiàng)選擇測試(共有10個(gè)選項(xiàng))中準(zhǔn)確進(jìn)行解釋的成功率是83%。該實(shí)驗(yàn)的方法依賴于識別出生成單個(gè)音節(jié)(而非整個(gè)單詞)所涉及的模式。
所有這些實(shí)驗(yàn)的目標(biāo)都是相同的,即有朝一日使失去說話能力(由于肌萎縮側(cè)索硬化癥或類似疾病)的人通過腦機(jī)界面來說話。不過,目前這些應(yīng)用的科學(xué)基礎(chǔ)還未達(dá)到。
據(jù)《科學(xué)》雜志的報(bào)道,解讀一個(gè)人只在頭腦里想象說話的神經(jīng)元活動(dòng)模式,要比解讀一個(gè)人聆聽或發(fā)出語音的神經(jīng)模式復(fù)雜得多。不過,第二篇論文的作者表示,解讀一個(gè)人想象話說時(shí)的大腦活動(dòng)也許是可能的。
必須說明的是,這些都還只是很小型的研究。第一篇論文采用的只是來自5名患者的數(shù)據(jù),而第二篇論文采用數(shù)據(jù)來自6名患者,第三篇?jiǎng)t只有3名患者。這些研究中記錄的神經(jīng)元活動(dòng)都沒有持續(xù)超過1個(gè)小時(shí)。盡管如此,科學(xué)仍然在向前發(fā)展。直接連接到大腦的人工語音設(shè)備似乎已經(jīng)有了真正的可能性,也許不遠(yuǎn)的將來我們就將見證它的誕生。