導讀:該比賽近年來吸引了包括騰訊AI Lab,華為諾亞方舟,啟元,清華,北大,中科院,香港中文大學,南洋理工大學,斯坦福大學,美國西北大學、德國比勒費爾德大學在內的眾多工業(yè)界和學術界的相關研究人員。
近日,在NeurIPS會議上舉辦的MineRL 2021 Diamond Competition落下帷幕,來自網(wǎng)易互娛AI Lab的Athena AI憑借高超的挖鉆技巧,在以《我的世界》游戲為競技環(huán)境的比賽中拿下Intro賽道的冠軍以及Research賽道的亞軍。
這是AI第一次在《我的世界》中挖掘到鉆石。
該比賽由CMU, OpenAI, DeepMind, Microsoft Research等機構聯(lián)合舉辦,是強化學習方向最負盛名的比賽之一。比賽自2019年起,每年在機器學習和計算神經科學領域頂級學術會議NeurIPS上舉辦,今年為第三屆。
該比賽近年來吸引了包括騰訊AI Lab,華為諾亞方舟,啟元,清華,北大,中科院,香港中文大學,南洋理工大學,斯坦福大學,美國西北大學、德國比勒費爾德大學在內的眾多工業(yè)界和學術界的相關研究人員。
今年的比賽同樣有來自海內外近60支隊伍、超過400名研究人員同場競技。
本屆MineRL比賽劃分為了Intro和Research兩個賽道。與Research賽道注重高效地利用玩家數(shù)據(jù),對訓練數(shù)據(jù)表征、訓練規(guī)模等方面進行了諸多的限制不同,Intro賽道更加貼近游戲AI開發(fā)中的真實場景,需要參賽者根據(jù)游戲特性設計針對性的算法,最大限度地提升AI的水平。
MineRL比賽要求參賽者在我的世界(MineCraft)游戲生存模式中,訓練出一個能夠從零開始收集各種資源、制作工具最后挖到鉆石的智能體。
該任務的主要難點有:
1、巨大的動作空間和狀態(tài)空間:
我的世界是一款3D開放世界游戲,智能體僅能依賴經過壓縮處理的游戲畫面以及背包中的部分物品數(shù)量信息來感知周圍環(huán)境,能夠執(zhí)行的動作包括移動、攻擊、視角調整、工具制作、裝備切換、物品放置等所有玩家能夠進行的操作,動作空間巨大。
2、復雜的工具鏈:
我的世界中存在龐雜的資源系統(tǒng)和物品合成體系,即使是僅為了獲取鉆石也需要智能體學會按順序收集并制作各種所需的資源和物品。
例如為了保證在挖到鉆石前制作出鐵鎬,智能體必須學會在探索到地下深處時做好木棍、收集至少三塊鐵礦和一些燃料并在放置好的熔爐邊燒制出所需的鐵錠。
3、長期規(guī)劃能力:
在MineRL環(huán)境中智能體能夠與環(huán)境進行至多18000次交互,這就要求智能體能夠具備長期規(guī)劃的能力。
例如智能體需要在游戲開始時就根據(jù)出生地周圍環(huán)境,決定是否在收集完附近的木質資源后直接向地下探索礦物或是花費時間離開出生地尋找更多的木材以避免下礦后可能出現(xiàn)沒有木頭制作工具的尷尬。
4、數(shù)據(jù)集有限且不完美:
主辦方提供了可供AI學習的約200場人類玩家數(shù)據(jù),數(shù)據(jù)集規(guī)模十分有限且并不是所有場次中的玩家最終都獲得了鉆石
在本次比賽中,在其他隊伍更傾向于利用玩家數(shù)據(jù)集并使用層次化訓練方法的氛圍中,網(wǎng)易互娛AI Lab,另辟蹊徑,采用端到端的純強化學習方案,史無前例地訓練出了能夠從零開始獲得鉆石的Athena AI。
Athena AI通過合理地約束有效動作,達到了對狀態(tài)的搜索空間進行剪枝的目的,使得AI在不使用分層策略的情況下依然能夠高效地在巨大的狀態(tài)空間中進行探索和學習。
Athena AI的實現(xiàn)方案表明,即使是在多任務且任務之間有著復雜依賴關系的游戲場景內,單一的端到端模型的表現(xiàn)也是可以達到甚至超過精細設計的分層訓練方式。
在最終Intro賽道的結果中,來自網(wǎng)易互娛AI Lab的隊伍WinOrGoHome以645.55分奪得冠軍,在100場游戲中累計21場都成功挖到了鉆石,超越第二名的隊伍近50%的分數(shù)。
值得一提的是,作為智能AI系統(tǒng),網(wǎng)易互娛AI Lab研發(fā)的Athena AI目前已經落地應用于網(wǎng)易互娛旗下的多款游戲。
網(wǎng)易互娛AI Lab成立于2017年,AI Lab所提供的人工智能服務包括計算機視覺、自然語言處理、語音信號處理、游戲AI多個方面。
目前技術已應用于網(wǎng)易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動》、《明日之后》等等。