技術(shù)
導(dǎo)讀:隨著AI、大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)中心的業(yè)務(wù)也不斷在演變,新的技術(shù)不斷的融入到數(shù)據(jù)中心。這其中,智能化的數(shù)據(jù)中心包含兩方面含義。
隨著AI、大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)中心的業(yè)務(wù)也不斷在演變,新的技術(shù)不斷的融入到數(shù)據(jù)中心。這其中,智能化的數(shù)據(jù)中心包含兩方面含義。
一方面是數(shù)據(jù)中心如何基于海量數(shù)據(jù),利用人工智能的技術(shù),進(jìn)一步去優(yōu)化數(shù)據(jù)中心的運(yùn)營(yíng);另個(gè)方面是數(shù)據(jù)中心會(huì)越來(lái)越多地去承載大數(shù)據(jù)的業(yè)務(wù),去承載人工智能訓(xùn)練的場(chǎng)景以及人工智能應(yīng)用的場(chǎng)景,在這個(gè)場(chǎng)景下數(shù)據(jù)中心自身需要去適應(yīng)新的智能化業(yè)務(wù)的需求。
智能化數(shù)據(jù)中心發(fā)展的三部曲
在中國(guó)電信北京研究院副總工程師楊明川看來(lái),智能化的數(shù)據(jù)中心的發(fā)展可以被歸納為三個(gè)階段。
在當(dāng)前階段,除了傳統(tǒng)的以CPU為核心的數(shù)據(jù)中心外,還要考慮人工智能的需求,比如:建設(shè)CPU和GPU聯(lián)合的資源池以及建設(shè)開(kāi)展面向邊緣計(jì)算場(chǎng)景的FPGA等計(jì)算的資源池。在這一過(guò)程中,AI驅(qū)動(dòng)的數(shù)據(jù)中心節(jié)能、AI驅(qū)動(dòng)的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的自動(dòng)化優(yōu)化和智慧運(yùn)營(yíng)以及AI驅(qū)動(dòng)的巡檢機(jī)器人等等,特別是在面向運(yùn)營(yíng)商特有的NFV場(chǎng)景中的一些故障的監(jiān)測(cè)、排除等,這些都是當(dāng)前的智能化數(shù)據(jù)中心正在面臨的新需求、新挑戰(zhàn)。
到了下一個(gè)階段,則會(huì)提出更高的統(tǒng)一和融合化的需求,包括邊緣和核心的統(tǒng)一以及AI和各個(gè)系統(tǒng)的融合、標(biāo)準(zhǔn)化和物聯(lián)網(wǎng)化。尤其是未來(lái)整個(gè)數(shù)據(jù)中心在邊緣,甚至在邊緣的設(shè)備和邊緣的數(shù)據(jù)中心之間,它們進(jìn)一步的統(tǒng)一和融合,也是未來(lái)我們需要重點(diǎn)考慮的地方。
而在最終階段,則是希望能夠?qū)崿F(xiàn)完全自動(dòng)化的數(shù)據(jù)中心。
四方面助力智能化數(shù)據(jù)中心建設(shè)
對(duì)于運(yùn)營(yíng)商來(lái)講,現(xiàn)在這個(gè)階段去構(gòu)建智能化的數(shù)據(jù)中心也面臨著很多的挑戰(zhàn),包括在基礎(chǔ)設(shè)施層面的改造、如何去適應(yīng)人工智能和大數(shù)據(jù)一些新的業(yè)務(wù)需求、怎么提供更豐富的API接口以及更多的數(shù)據(jù)存儲(chǔ)。
對(duì)此,中國(guó)電信正在積極思考在未來(lái)智能化的數(shù)據(jù)中心里可以做一些什么樣的探索?!拔宜诘闹袊?guó)電信北京研究院做了一些嘗試,主要包括四大方面?!睏蠲鞔ㄖv到。
首先,第一個(gè)方面是智能化的數(shù)據(jù)中心節(jié)能技術(shù)。很多專(zhuān)家也都講過(guò)在物理基礎(chǔ)設(shè)施層面,可以開(kāi)展很多節(jié)能方面的技術(shù)研發(fā),引入很多節(jié)能相關(guān)的設(shè)備,從而降低我們數(shù)據(jù)中心的能耗。
針對(duì)此,楊明川主要介紹了一個(gè)純軟件的方法,它的思路是對(duì)數(shù)據(jù)中心尤其是云數(shù)據(jù)中心的服務(wù)器資源進(jìn)行調(diào)度,也就是說(shuō)我們更多是考慮服務(wù)器在承載業(yè)務(wù)時(shí),隨著業(yè)務(wù)需求的變化,怎么通過(guò)人工智能的方法去預(yù)測(cè)這些服務(wù)器資源使用的效率以及未來(lái)的負(fù)荷,進(jìn)而通過(guò)智能化的調(diào)度來(lái)使得部分的服務(wù)器休眠得以降低其能耗。
“這里面我們需要大量的數(shù)據(jù)采集,從數(shù)據(jù)中心里面去采集各種各樣的包括從云主機(jī)、物理主機(jī)、能源消耗、業(yè)務(wù)變化層面上的各種各樣的數(shù)據(jù),然后去構(gòu)建基于深度學(xué)習(xí)的預(yù)測(cè)模型,使得我們能夠通過(guò)動(dòng)態(tài)負(fù)載調(diào)整去降低能耗?!睏蠲鞔ㄕf(shuō)。
據(jù)悉,中國(guó)電信已經(jīng)在幾個(gè)省公司做了智能化節(jié)能的嘗試,在這個(gè)過(guò)程中中國(guó)電信也采用了一些漸進(jìn)式的方案,當(dāng)前已經(jīng)能夠在無(wú)人值守下實(shí)現(xiàn)節(jié)能。平均下來(lái)大概能實(shí)現(xiàn)20-30%的節(jié)能,而且對(duì)于云數(shù)據(jù)中心還能有更大的能源節(jié)省空間。
第二個(gè)方面的案例是服務(wù)器定制,服務(wù)器定制和智能化數(shù)據(jù)中心的演進(jìn)是一脈相承的。其中,中國(guó)電信早期定制的是整機(jī)柜的服務(wù)器、單機(jī)的服務(wù)器,到2015、2016年則是超融合的定制化的服務(wù)器,以及低功耗的定制服務(wù)器。在2017年考慮的主要是ServerSAN領(lǐng)域的定制服務(wù)器、NFV的定制化服務(wù)器以及面向人工智能的GPU定制化服務(wù)器。今年,中國(guó)電信又拓展新的領(lǐng)域,比如說(shuō)針對(duì)邊緣機(jī)房條件定制的服務(wù)器。
楊明川表示:“隨著數(shù)據(jù)中心業(yè)務(wù)的發(fā)展,服務(wù)器層面必須要適應(yīng)相應(yīng)的變化,開(kāi)展新的類(lèi)型的服務(wù)器定制工作。這塊工作和ODCC的工作是相互配合、相互促進(jìn)的。”
第三個(gè)方面則是在數(shù)據(jù)中心里構(gòu)建人工智能的PaaS平臺(tái),這塊工作目前主要是在中國(guó)電信的云計(jì)算實(shí)驗(yàn)室做一些嘗試。面向人工智能的PaaS平臺(tái)有兩類(lèi):一類(lèi)是面向公有云的,一類(lèi)是面向行業(yè)的。
目前,中國(guó)電信已經(jīng)搭建了一個(gè)面向AI的能力中臺(tái)的基礎(chǔ)架構(gòu)。這個(gè)面向人工智能AI的PaaS平臺(tái),在面向一些行業(yè)的智能化解決方案里就能夠去發(fā)揮作用,使得以AI為核心的行業(yè)解決方案成為可能。
第四個(gè)方面則是AI輔助智能運(yùn)維。當(dāng)前,原有的運(yùn)維方式正面臨很多挑戰(zhàn),比如:虛擬化之后的IT架構(gòu),跨計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的端到端運(yùn)維工具,容器、微服務(wù)和虛擬化的應(yīng)用,以及多廠商集成等問(wèn)題。
中國(guó)電信正在嘗試去構(gòu)建一個(gè)AI智能輔助運(yùn)維系統(tǒng),研究如何從數(shù)據(jù)感知層面、故障診斷層面、故障預(yù)測(cè)和故障自愈層面,如何能夠更加充分的運(yùn)用大數(shù)據(jù)、人工智能的技術(shù),使得整個(gè)數(shù)據(jù)中心的運(yùn)維工作更加智能化、自動(dòng)化。
當(dāng)然,數(shù)據(jù)中心智能化的道路剛剛開(kāi)始,未來(lái)還有大量的工作,業(yè)界都需要進(jìn)一步研究和進(jìn)一步合作,相信未來(lái)的數(shù)據(jù)中心能夠具有更高的智能。