技術(shù)
導(dǎo)讀:該系統(tǒng)是開(kāi)放訪問(wèn)的,以期為應(yīng)用開(kāi)發(fā)者、企業(yè)、研究團(tuán)體和社會(huì)各界提供服務(wù)。在推出5個(gè)月后,該系統(tǒng)的語(yǔ)言能力變得更加強(qiáng)大。
《西班牙人報(bào)》網(wǎng)站近日?qǐng)?bào)道稱,MarIA是第一個(gè)專門利用西班牙語(yǔ)理解和寫(xiě)作的大規(guī)模人工智能系統(tǒng)。得益于該系統(tǒng),西班牙語(yǔ)得以在擁有海量開(kāi)放訪問(wèn)模型的語(yǔ)言中排在第3位,僅次于英語(yǔ)和中文。
報(bào)道稱,該系統(tǒng)建立在西班牙國(guó)家圖書(shū)館的數(shù)字文獻(xiàn)基礎(chǔ)之上,并通過(guò)MareNostrum 4超級(jí)計(jì)算機(jī)進(jìn)行人工智能培訓(xùn)。該圖書(shū)館一直致力于追蹤和歸檔所有使用西班牙語(yǔ)的網(wǎng)站。
該系統(tǒng)是開(kāi)放訪問(wèn)的,以期為應(yīng)用開(kāi)發(fā)者、企業(yè)、研究團(tuán)體和社會(huì)各界提供服務(wù)。在推出5個(gè)月后,該系統(tǒng)的語(yǔ)言能力變得更加強(qiáng)大。
語(yǔ)言模型是一個(gè)人工智能系統(tǒng),由深度神經(jīng)網(wǎng)絡(luò)組成,經(jīng)過(guò)訓(xùn)練能夠精確掌握語(yǔ)言、詞匯以及表達(dá)和寫(xiě)作機(jī)制。
這些復(fù)雜的統(tǒng)計(jì)模型不僅能夠“理解”抽象的概念,而且能夠理解其背景。有了這些模型,應(yīng)用程序開(kāi)發(fā)者可以創(chuàng)建具有多種用途的工具,例如對(duì)文件進(jìn)行分類或創(chuàng)建校對(duì)或翻譯工具等。
第1個(gè)版本的MarIA是利用RoBERTa訓(xùn)練模型建立的,RoBERTa是一種創(chuàng)建“編碼器”類型語(yǔ)言模型的技術(shù)。而最新版本則是用GPT-2創(chuàng)建的,GPT-2是一種更先進(jìn)的技術(shù),可以創(chuàng)建生成性解碼器模型并為系統(tǒng)增加更多功能。
這些新的功能使MarIA成為一種有效的工具。通過(guò)適應(yīng)具體任務(wù)的“特殊”訓(xùn)練,該系統(tǒng)可以為應(yīng)用開(kāi)發(fā)者、公司和公共管理部門帶去更多幫助。
例如,迄今為止開(kāi)發(fā)的英語(yǔ)模型都被用來(lái)在寫(xiě)作應(yīng)用中生成文本建議,根據(jù)每個(gè)用戶想了解的內(nèi)容,總結(jié)合同或詳細(xì)介紹產(chǎn)品特點(diǎn)的復(fù)雜文件,以及在大型文本數(shù)據(jù)庫(kù)中搜索特定信息,并將其與其他相關(guān)信息聯(lián)系起來(lái)。
專家指出,通過(guò)MarIA這樣的項(xiàng)目,西班牙正在向利用西班牙語(yǔ)思考的人工智能邁出堅(jiān)定的步伐,這將使西班牙的公司和技術(shù)行業(yè)獲得的經(jīng)濟(jì)機(jī)會(huì)成倍增加。因?yàn)樵撓到y(tǒng)遠(yuǎn)不止是一種交流的手段,更是看待數(shù)字化世界的新方式。