av在线精品二区亚洲,91视频插插插

打開失聲者的另一扇窗！愛爾蘭創(chuàng)企推唇語(yǔ)識(shí)別app，準(zhǔn)確率達(dá)90%

2021-06-28 15:14 智東西

關(guān)鍵詞：智能識(shí)別數(shù)字化物聯(lián)網(wǎng)

導(dǎo)讀：VSR領(lǐng)域主要是訓(xùn)練人工智能在沒(méi)有任何音頻輸入的情況下讀懂唇語(yǔ)。

據(jù)加拿大媒體VICE報(bào)道，近日，視覺語(yǔ)音識(shí)別（VSR）領(lǐng)域又迎來(lái)重大突破，愛爾蘭初創(chuàng)公司Liopa開發(fā)出一種名為SRAVI的針對(duì)語(yǔ)音障礙情況下語(yǔ)言識(shí)別app。并且SRAVI有望成為首款可供公眾購(gòu)買的唇語(yǔ)識(shí)別工具。

唇語(yǔ)識(shí)別是一項(xiàng)集機(jī)器視覺與自然語(yǔ)言處理于一體的技術(shù)，通過(guò)分析說(shuō)話人唇部運(yùn)動(dòng)，結(jié)合大數(shù)據(jù)匹配出有最大可能性自然語(yǔ)句。英特爾、谷歌和我國(guó)的搜狗等公司都訓(xùn)練人工智能（AI）讀懂唇語(yǔ)。并且唇語(yǔ)識(shí)別AI也開始實(shí)驗(yàn)性的應(yīng)用于醫(yī)院、電力公司、公共交通等領(lǐng)域。

一、SRAVI可識(shí)別短語(yǔ)，準(zhǔn)確率達(dá)90%

一位患者坐在病床上，他脖子上纏有帶開口的繃帶，供氧氣管套管通過(guò)并固定住。由于最近接受手術(shù)，這位患者無(wú)法發(fā)聲。醫(yī)生拿起智能手機(jī)，記錄下病人說(shuō)的短語(yǔ)。這款名為SRAVI的app會(huì)分析唇部運(yùn)動(dòng)，并在兩分鐘內(nèi)返回其識(shí)別結(jié)果——“我需要吸引器”。

這似乎只是一個(gè)簡(jiǎn)單的互動(dòng)，在某些方面，SRAVI非常簡(jiǎn)單。它能準(zhǔn)確識(shí)別幾十個(gè)短語(yǔ)，準(zhǔn)確率約為90%。

VSR領(lǐng)域主要是訓(xùn)練人工智能在沒(méi)有任何音頻輸入的情況下讀懂唇語(yǔ)。幾十年來(lái)，研究人員一直致力于此類技術(shù)，但事實(shí)證明，即使深度學(xué)習(xí)系統(tǒng)的進(jìn)步，幫助解決了其他具有里程碑意義問(wèn)題，AI讀懂唇語(yǔ)仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。這項(xiàng)研究受到廣闊商業(yè)應(yīng)用前景預(yù)期推動(dòng)——從應(yīng)用于監(jiān)控工具到靜音通信app，以及改進(jìn)虛擬助手性能。

Liopa公司正在為SRAVI申請(qǐng)歐洲I類醫(yī)療器械認(rèn)證，并希望能在8月之前完成。這樣公司就可以向醫(yī)療服務(wù)商銷售該產(chǎn)品了。

二、唇語(yǔ)識(shí)別AI商業(yè)化不僅面臨隱私問(wèn)題

唇語(yǔ)識(shí)別并不是一個(gè)全新的人工智能方向，許多科技巨頭也一直在研究唇語(yǔ)識(shí)別AI，早在2003年，英特爾公司就開發(fā)出了唇語(yǔ)識(shí)別軟件Audio Visual Speech Recognition（AVSR），2016年谷歌子公司DeepMind唇語(yǔ)識(shí)別技術(shù)已經(jīng)可以支持17500個(gè)詞，新聞測(cè)試集上識(shí)別準(zhǔn)確率首次達(dá)到50%以上，2017年搜狗推出中文唇語(yǔ)識(shí)別系統(tǒng)。

隨著唇語(yǔ)識(shí)別AI成為一種可行的商業(yè)工具，技術(shù)人員和隱私監(jiān)管機(jī)構(gòu)越來(lái)越擔(dān)心，它未來(lái)會(huì)被開發(fā)成什么樣以及會(huì)部署在哪些領(lǐng)域。

例如，SRAVI并不是Liopa正在研究的唯一一款唇語(yǔ)識(shí)別AI。該公司還和英國(guó)一家國(guó)防研究機(jī)構(gòu)合作開發(fā)另一種工具，使執(zhí)法機(jī)構(gòu)能夠通過(guò)無(wú)聲閉路電視錄像進(jìn)行搜索，并識(shí)別人們何時(shí)說(shuō)出過(guò)某些特定關(guān)鍵詞。

美國(guó)摩托羅拉公司（Motorola Solutions）有一項(xiàng)旨在幫助警察的唇語(yǔ)系統(tǒng)專利。

美國(guó)無(wú)人機(jī)初創(chuàng)企業(yè)Skylark Labs創(chuàng)始人告訴Motherboard（VICE旗下科技版塊），其唇語(yǔ)系統(tǒng)目前已部署在印度的一些私人住宅和一家國(guó)有電力公司中，以檢測(cè)粗俗語(yǔ)言。

英國(guó)生物識(shí)別和監(jiān)控?cái)z像機(jī)專員弗雷澤桑普森（Fraser Sampson）接受Motherboard采訪時(shí)說(shuō)：“從我的角度來(lái)看，這是唇語(yǔ)識(shí)別可應(yīng)用的其中一個(gè)領(lǐng)域，這是關(guān)于‘我們可以做到，并不意味我們應(yīng)該這樣做’一個(gè)很好的例子。我在這個(gè)領(lǐng)域的主要關(guān)注點(diǎn)不在技術(shù)可以和不可以做什么，而是人們相信它可以做到其所說(shuō)的，這會(huì)產(chǎn)生寒蟬效應(yīng)。如果這項(xiàng)技術(shù)限制大眾在公共場(chǎng)合發(fā)言，那么我們將面臨的不僅僅是隱私問(wèn)題了?！?/p>

唇語(yǔ)識(shí)別AI的出現(xiàn)讓人想起了人臉識(shí)別技術(shù)。幾十年來(lái)，人臉識(shí)別技術(shù)一直是個(gè)小眾研究領(lǐng)域，然后它從2000年代初開始作為監(jiān)視工具悄然迅速商業(yè)化。

人臉識(shí)別技術(shù)的許多問(wèn)題直到最近才被公之于眾，很大程度上還要?dú)w功于人臉識(shí)別受害者積極研究和行動(dòng)。具體來(lái)說(shuō)，麻省理工計(jì)算機(jī)科學(xué)家喬伊·博拉姆維尼（Joy Buolamwini）和前谷歌AI倫理學(xué)家提姆尼特·格布魯（Timnit Gebru）在2018年發(fā)表了一篇具有重要意義的論文，論文中首次揭示了人臉識(shí)別用于女性和有色人種識(shí)別準(zhǔn)確性較低。當(dāng)這些擔(dān)憂進(jìn)入主流話語(yǔ)體系時(shí)，電話、私人企業(yè)中人臉識(shí)別的應(yīng)用已經(jīng)無(wú)處不在。

監(jiān)控?cái)z像頭遍布美國(guó)許多城市的街頭巷角。至少有三名黑人男子因?yàn)槿四樧R(shí)別不準(zhǔn)而被錯(cuò)誤逮捕，實(shí)際數(shù)字幾乎肯定更高，而且該技術(shù)還被用于追蹤美國(guó)“Black Lives Matter”運(yùn)動(dòng)的抗議者，以及其他各種可疑人員。在過(guò)去兩年中，也就是在該技術(shù)首次大規(guī)模公開部署近20年后，美國(guó)草根運(yùn)動(dòng)導(dǎo)致十多個(gè)城市和州的警察和個(gè)人開始禁止使用人臉識(shí)別技術(shù)。

大眾對(duì)人臉識(shí)別技術(shù)的強(qiáng)烈反對(duì)推動(dòng)了AI研究人員思維轉(zhuǎn)變，即他們?cè)撊绾慰紤]其研究發(fā)現(xiàn)的未來(lái)應(yīng)用。例如，神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)（NeurIPS）去年首次要求研究人員在提交論文時(shí)，加上關(guān)于新研究可能會(huì)對(duì)社會(huì)產(chǎn)生哪些影響的論述。

《人工智能：計(jì)算機(jī)如何誤解世界（Artificial Unintelligence: How Computers Misunderstand the World）》一書作者梅雷迪思·布魯薩德（Meredith Broussard）告訴Motherboard：“研究很棒，但是當(dāng)我們發(fā)現(xiàn)某一特定知識(shí)或者研究路線具有毀滅性后果時(shí)，作為研究人員，我們有責(zé)任停止它并實(shí)施相應(yīng)措施?！?/p>

三、監(jiān)控領(lǐng)域應(yīng)用唇語(yǔ)識(shí)別需受管控

唇語(yǔ)識(shí)別AI作為一項(xiàng)商業(yè)技術(shù)仍處于起步階段，但技術(shù)早期關(guān)注于在監(jiān)控方面應(yīng)用引發(fā)了人們的擔(dān)憂，科學(xué)發(fā)展如此之快，當(dāng)后果再次顯現(xiàn)，可能為時(shí)已晚。

“這項(xiàng)技術(shù)剛開始發(fā)展的確太快了，不過(guò)在去年，開始有論文圍繞VSR技術(shù)倫理問(wèn)題進(jìn)行討論?！彼顾蛄_斯·佩特里迪斯（Stavros Petridis）說(shuō)，他最近在Facebook工作，但與Motherboard談到了他之前在英國(guó)帝國(guó)理工學(xué)院（Imperial College London）的研究。“鑒于目前還沒(méi)有可商用的唇語(yǔ)識(shí)別app，這次很有可能在唇語(yǔ)識(shí)別AI技術(shù)完全商業(yè)化之前才考慮倫理問(wèn)題?！?/p>

帝國(guó)理工學(xué)院博士生羅德里戈·米拉（Rodrigo Mira）告訴Motherboard，他和他的同事知道自己研究的領(lǐng)域是有爭(zhēng)議的。他將該研究工作和滲透測(cè)試進(jìn)行了比較——滲透測(cè)試是一種在計(jì)算機(jī)系統(tǒng)中尋找漏洞以修復(fù)它們的網(wǎng)絡(luò)安全實(shí)踐。換句話說(shuō)，這項(xiàng)研究是允許受道德規(guī)范約束的學(xué)術(shù)機(jī)構(gòu)在新技術(shù)被犯罪分子利用之前發(fā)現(xiàn)它。

米拉表示：“唇語(yǔ)識(shí)別AI的主要問(wèn)題是人們總是會(huì)談?wù)撜巍＿@不是我們是否應(yīng)該停止研究，而是我們有能力通過(guò)觀察人們來(lái)了解他們?cè)谡f(shuō)什么時(shí)，我們應(yīng)該用它做什么？阻止不道德地使用該技術(shù)的方法，不是關(guān)閉帝國(guó)理工學(xué)院，解決這個(gè)問(wèn)題的方法是把它作為一個(gè)政治問(wèn)題來(lái)處理。”

人工智能倫理學(xué)家同意，政府對(duì)人臉識(shí)別和唇語(yǔ)識(shí)別AI等生物識(shí)別監(jiān)控技術(shù)應(yīng)盡早和大力度監(jiān)管，這對(duì)于防止歧視和傷害是必要的，但到目前為止，許多政府未能制定相應(yīng)法律。這就是為什么研究人員不僅有責(zé)任考慮技術(shù)應(yīng)用的潛在后果，而且要主動(dòng)將最可能受到該技術(shù)傷害人群納入研究決策過(guò)程的原因。不過(guò)專家表示，現(xiàn)有VSR系統(tǒng)并未考慮這些因素。

美國(guó)AI Now Institute研究員莎拉·邁爾斯·韋斯特（Sarah Myers West）告訴Motherboard：“這是為了積極創(chuàng)造一種技術(shù)，或許會(huì)有有害用途，而不僅停留在識(shí)別和減輕現(xiàn)有技術(shù)中的漏洞。研究人員并不是總能夠自己進(jìn)行這些倫理性評(píng)估。這就是為什么在整個(gè)過(guò)程中讓可能受影響的群體參與進(jìn)來(lái)，以預(yù)測(cè)和避免潛在有害的其他用途，是如此重要?！?/p>

四、唇語(yǔ)識(shí)別技術(shù)不斷優(yōu)化，完整對(duì)話識(shí)別仍需時(shí)間

Liopa的CEO利亞姆·麥奎倫（Liam McQuillan）告訴Motherboard，該公司至少需要一年的時(shí)間才能擁有滿意的從閉路電視錄像中讀出關(guān)鍵詞的系統(tǒng)，公司已經(jīng)考慮過(guò)隱私問(wèn)題?！斑@里可能會(huì)有人擔(dān)心實(shí)際最終會(huì)禁止使用該技術(shù)……我們當(dāng)然不會(huì)這樣把Liopa押在這個(gè)項(xiàng)目上面，即使有充足研究資金——該項(xiàng)目由英國(guó)國(guó)防部國(guó)防與安保加速器（British Defense and Security Accelerator）資助?！?/p>

麥奎倫還表示，該公司正在積極尋求解決潛在的種族或性別偏見，方法是通過(guò)收集多種數(shù)據(jù)來(lái)訓(xùn)練其算法。數(shù)據(jù)收集來(lái)源包括一組多樣化的YouTube剪輯視頻，通過(guò)收藏應(yīng)用程序提供視頻的志愿者，以及一家專門管理包含不同種族和民族數(shù)據(jù)集的公司。不過(guò)目前Liopa公司尚未發(fā)表任何關(guān)于其系統(tǒng)在不同人口群體中表現(xiàn)相關(guān)的研究。

Motherboard找到了一家聲稱正在積極銷售唇語(yǔ)識(shí)別AI系統(tǒng)的公司Skylark Labs。Skylark Labs已經(jīng)將唇語(yǔ)識(shí)別技術(shù)融入監(jiān)控市場(chǎng)。

Skylark Labs創(chuàng)始人兼CEO阿瑪喬特·辛格（Amarjot Singh）告訴Motherboard，該公司最初向印度的警察局推銷其包含唇語(yǔ)識(shí)別、人臉識(shí)別、暴力和武器檢測(cè)算法的技術(shù)套件。該公司發(fā)現(xiàn)，鑒于在擁擠公共場(chǎng)所使用唇語(yǔ)識(shí)別功能面臨的挑戰(zhàn)，用戶對(duì)此功能興趣不大。

Skylark Labs已經(jīng)轉(zhuǎn)向研究其他唇語(yǔ)識(shí)別在其他場(chǎng)合的用途。辛格表示，公司的唇語(yǔ)識(shí)別AI技術(shù)目前正在印度旁遮普邦電力公司有限公司進(jìn)行試點(diǎn)，以檢測(cè)員工互相打擾的情況。他說(shuō)，有幾個(gè)人還購(gòu)買了這項(xiàng)技術(shù)來(lái)監(jiān)控他們的保姆。Skylark Labs指出，它的唇語(yǔ)識(shí)別AI可以檢測(cè)大約50個(gè)與詛咒、虐待和暴力相關(guān)的不同詞語(yǔ)。不過(guò)根據(jù)當(dāng)?shù)孛襟w報(bào)道，辛格發(fā)表過(guò)關(guān)于暴力檢測(cè)和人臉識(shí)別的研究，印度警方確實(shí)使用Skylark的無(wú)人機(jī)來(lái)增加社交距離，不過(guò)辛格和公司都沒(méi)有發(fā)表任何關(guān)于唇語(yǔ)識(shí)別AI的研究。

Motherboard聯(lián)系了旁遮普邦電力公司有限公司，有人表示家里使用過(guò)唇語(yǔ)識(shí)別技術(shù)，但沒(méi)有收到更多回復(fù)。

辛格說(shuō)：“我們正在自然場(chǎng)景中進(jìn)行研究，并試圖解決對(duì)人身安全有直接影響的用例。我認(rèn)為這有好處，因?yàn)樵O(shè)計(jì)師能夠控制系統(tǒng)應(yīng)該標(biāo)記的詞，所以我認(rèn)為它還可以。這里風(fēng)險(xiǎn)是，一旦你開始校準(zhǔn)系統(tǒng)在自然場(chǎng)景中獲取日常語(yǔ)言，詞語(yǔ)在是否符合道德規(guī)范方面可能會(huì)有瑕疵。”

接受采訪的研究人員和公司高管告訴Motherboard，實(shí)現(xiàn)唇語(yǔ)識(shí)別AI能解釋完整對(duì)話，還需要數(shù)年時(shí)間。

這項(xiàng)任務(wù)非常具有挑戰(zhàn)性——即使是專業(yè)的人類唇語(yǔ)讀者，實(shí)際上在逐字解釋方面也很差。2018年，DeepMind發(fā)表了一項(xiàng)研究，揭示了其最新的全句唇讀系統(tǒng)，并使用大型的、定制數(shù)據(jù)集進(jìn)行測(cè)試。AI在包含完整句子的視頻上實(shí)現(xiàn)了41%的單詞錯(cuò)誤率。在沒(méi)有提供上下文主題相關(guān)信息情況下，觀看類似純視頻剪輯樣本的人類唇語(yǔ)讀者單詞錯(cuò)誤率為93%，而在給定視頻標(biāo)題、主題類別和句子中的幾個(gè)單詞時(shí)，錯(cuò)誤率也有86%。

帝國(guó)理工學(xué)院研究小組本月發(fā)表論文，描述了一個(gè)完整句子唇語(yǔ)識(shí)別系統(tǒng)，該系統(tǒng)在較小的、公開可用的400小時(shí)視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練，可以實(shí)現(xiàn)低至37.9%的單詞錯(cuò)誤率。

當(dāng)涉及到單個(gè)關(guān)鍵字唇讀領(lǐng)域，Liopa和Skylark Labs同樣正在追求的目標(biāo)，唇語(yǔ)識(shí)別技術(shù)準(zhǔn)確度要高得多，并且僅在去年就有顯著提高。2017年，在Wild數(shù)據(jù)集中唇語(yǔ)閱讀基準(zhǔn)準(zhǔn)確率最高是83%。2020年之前，這一最高紀(jì)錄保持不變，根據(jù)帝國(guó)理工學(xué)院與三星合作發(fā)表的這篇論文，準(zhǔn)確率現(xiàn)在突破到88.5%。

但是，很難知道真正的頂峰是什么。DeepMind在2018年之后沒(méi)有發(fā)表任何關(guān)于唇語(yǔ)項(xiàng)目的進(jìn)一步研究，并且拒絕討論。與Motherboard溝通的許多研究人員都不愿隨意推測(cè)大型科技公司打算用這種新興技術(shù)做什么，或者它何時(shí)何地開始對(duì)公眾產(chǎn)生明顯影響。

米拉說(shuō)，人工智能和機(jī)器學(xué)習(xí)過(guò)去10年向大家展示的一件事是，未來(lái)難以預(yù)測(cè)。但低估技術(shù)發(fā)展確實(shí)是不明智的。

結(jié)語(yǔ)：AI唇語(yǔ)識(shí)別超人類，隱私保護(hù)引擔(dān)憂

目前，唇語(yǔ)識(shí)別技術(shù)的準(zhǔn)確率已經(jīng)超過(guò)人類，普通人的唇語(yǔ)識(shí)別率在10%，受過(guò)訓(xùn)練的殘障人士可能會(huì)達(dá)到40%。唇語(yǔ)識(shí)別工具大都已經(jīng)超過(guò)50%，例如搜狗唇語(yǔ)識(shí)別技術(shù)在口語(yǔ)測(cè)試集上準(zhǔn)確率為60%以上，在車載、智能家居等垂直場(chǎng)景下會(huì)有90%以上的準(zhǔn)確率。

唇語(yǔ)識(shí)別技術(shù)應(yīng)用場(chǎng)景多元，不僅可以幫助言語(yǔ)障礙人士進(jìn)行溝通，還可以應(yīng)用于遠(yuǎn)場(chǎng)環(huán)境下溝通，以及安防、驗(yàn)證等領(lǐng)域。同人臉識(shí)別技術(shù)一樣，唇語(yǔ)識(shí)別技術(shù)的應(yīng)用需要受到監(jiān)督。未來(lái)在私人安全領(lǐng)域，唇語(yǔ)識(shí)別可能應(yīng)用為一種新生物認(rèn)證方式，在公共安全領(lǐng)域，唇語(yǔ)識(shí)別或會(huì)結(jié)合公共攝像頭無(wú)聲視頻數(shù)據(jù)庫(kù)來(lái)輔助案情分析。這就涉及到隱私保護(hù)問(wèn)題，唇語(yǔ)識(shí)別應(yīng)用中將涉及到大量隱私相關(guān)數(shù)據(jù)，其安全性需要得到保證。

來(lái)源：VICE

打開失聲者的另一扇窗！愛爾蘭創(chuàng)企推唇語(yǔ)識(shí)別app，準(zhǔn)確率達(dá)90%

相關(guān)閱讀

打開失聲者的另一扇窗！愛爾蘭創(chuàng)企推唇語(yǔ)識(shí)別app，準(zhǔn)確率達(dá)90%