導(dǎo)讀:早期部署者正嘗試使用人工智能來優(yōu)化電源和冷卻系統(tǒng),實(shí)現(xiàn)自動化的預(yù)測性維護(hù),以及改進(jìn)企業(yè)數(shù)據(jù)中心中的工作負(fù)載分配。
關(guān)于人工智能的討論目前主要還集中在自動駕駛汽車、聊天機(jī)器人、數(shù)字孿生技術(shù)、機(jī)器人技術(shù)以及從大數(shù)據(jù)集中利用基于AI的“智能”系統(tǒng)獲取業(yè)務(wù)洞察力等方面。目前盡管可以自主運(yùn)維的數(shù)據(jù)中心和自動駕駛汽車一樣還沒有成為現(xiàn)實(shí),但是數(shù)據(jù)中心人工智能已經(jīng)在技術(shù)、運(yùn)維和人員等方面取得了許多重大突破。
人工智能(AI)和機(jī)器學(xué)習(xí)(ML)終究有一天將在企業(yè)數(shù)據(jù)中心內(nèi)發(fā)揮重要作用。未來人工智能或許可以幫助企業(yè)創(chuàng)建高度自動化的、安全的且具有自我修復(fù)功能的數(shù)據(jù)中心。這些數(shù)據(jù)中心能夠以更高的效率和更高的彈性運(yùn)行,幾乎不再需要進(jìn)行人工干預(yù)。
人工智能提升數(shù)據(jù)中心效率和擴(kuò)展業(yè)務(wù)的潛力主要在以下4個(gè)方面:
安全性:公安部在16個(gè)城市試點(diǎn)基礎(chǔ)上,在全國分兩批推廣機(jī)動車檢驗(yàn)標(biāo)志電子化。工作負(fù)載管理:AI系統(tǒng)可實(shí)現(xiàn)工作負(fù)載實(shí)時(shí)地自動向效率最高的基礎(chǔ)設(shè)施遷移,這些基礎(chǔ)設(shè)施既可以在數(shù)據(jù)中心內(nèi)部,也可以在混合云環(huán)境上;既可以在本地,也可以在云端,還可以在邊緣環(huán)境中。電源管理:基于AI的電源管理可優(yōu)化冷卻系統(tǒng),降低電費(fèi)成本,減少人員數(shù)量,提高效率。設(shè)備管理:AI系統(tǒng)可以檢查系統(tǒng)是否配置正確,監(jiān)視服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備的健康狀況,預(yù)測設(shè)備的故障時(shí)間。
人工智能與安全
安全運(yùn)營中心(SOC)的安全專業(yè)人員常常會被大量的警報(bào)搞得精疲力盡?;贏I的系統(tǒng)可以掃描大量遙測數(shù)據(jù)和日志信息,處理一些簡單的工作,從而使得安全專家有時(shí)間展開深入的調(diào)查?;贏I的系統(tǒng)可以檢測、阻止和隔離威脅,并展開溯源以確定到底發(fā)生了什么,以及黑客能夠利用哪些漏洞。這使得人工智能在實(shí)時(shí)入侵檢測方面極為有用。
迅速進(jìn)行根本原因分析可以幫助運(yùn)維人員做出明智的決定并采取行動。人工智能和機(jī)器學(xué)習(xí)可以通過對事件進(jìn)行快速分類和聚類的方式,識別出重要事件并將其與噪音分離,從而簡化事件處理(事件響應(yīng))。
除了可以幫助解譯那些超出人類能力水平的數(shù)據(jù)外,AI自動化還可在優(yōu)化能源使用、工作負(fù)載分配和數(shù)據(jù)中心資產(chǎn)利用效率最大化等方面幫助獲取深刻的洞察力。
基于AI的工作負(fù)載優(yōu)化
無論是在本地還是在云端,AI在應(yīng)用程序?qū)涌勺詣訉⒐ぷ髫?fù)載移動到適當(dāng)?shù)奈恢谩@?,將工作?fù)載自動遷移到最節(jié)能的服務(wù)器上,同時(shí)確保服務(wù)器以最高效率(利用率為70%~80%)運(yùn)行。
人工智能系統(tǒng)還可將時(shí)間敏感性高的應(yīng)用程序遷移到高效率服務(wù)器上運(yùn)行,同時(shí)確保那些不需要迅速執(zhí)行的應(yīng)用程序不會消耗過多的電力。
未來,AI/ML還可根據(jù)性能、成本、治理、安全性、風(fēng)險(xiǎn)和可持續(xù)性等因素,實(shí)時(shí)決定將工作負(fù)載遷移至何處。
將電源管理與服務(wù)器工作負(fù)載管理整合在一起
AI帶來的好處與出色硬件設(shè)計(jì)所帶來的好處不在一個(gè)層次上。電源管理則是最容易進(jìn)行改進(jìn)的地方。這關(guān)乎生產(chǎn)力,關(guān)系到每個(gè)BTU是否可以完成更多的工作,關(guān)系到每瓦特電能是否能做更多的工作。
這也意味著工作要更加智能化,以及設(shè)備是否能夠更加智能地工作。如果傳感器檢測到服務(wù)器運(yùn)行溫度過高,那么系統(tǒng)可自動地快速將工作負(fù)載轉(zhuǎn)移到未充分利用的服務(wù)器上,以避免關(guān)鍵任務(wù)應(yīng)用程序出現(xiàn)中斷的危險(xiǎn)。同時(shí)系統(tǒng)會調(diào)查服務(wù)器過熱的原因,是風(fēng)扇出現(xiàn)了故障(HVAC問題),還是物理組件出現(xiàn)了故障(設(shè)備問題),亦或是服務(wù)器出現(xiàn)了過載(工作負(fù)荷問題)。
AI系統(tǒng)還可以通過關(guān)聯(lián)HVAC系統(tǒng)數(shù)據(jù)和環(huán)境傳感器數(shù)據(jù)來了解設(shè)施目前的狀態(tài)。例如,基于AI的系統(tǒng)可以幫助數(shù)據(jù)中心管理員了解當(dāng)前或潛在的冷卻問題。如HVAC單元性能不佳、冷熱通道之間的空氣量不足,以及由于機(jī)柜密度過高阻礙了空氣流通導(dǎo)致冷氣輸送不足等問題。
容量規(guī)劃也是一個(gè)可能改進(jìn)的地方。除了尋找發(fā)熱點(diǎn)和冷卻點(diǎn)之外,AI系統(tǒng)還能確保數(shù)據(jù)中心只為適當(dāng)數(shù)量的物理服務(wù)器提供電力,如果出現(xiàn)臨時(shí)性需求激增的情況,系統(tǒng)還可以啟動新的物理服務(wù)器以提高可用容量。
許多企業(yè)之所以正在花大力氣研究數(shù)據(jù)中心電源管理,一方面是為了節(jié)省資金,另一方面也是為了承擔(dān)起企業(yè)的環(huán)保責(zé)任。有數(shù)據(jù)顯示,數(shù)據(jù)中心消耗了全球3%的電力供應(yīng),并造成了約2%的溫室氣體排放。
谷歌在2018年曾宣布已將其多個(gè)超大規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)交給AI程序控制,由AI算法提供的建議使得耗電量下降了40%。
運(yùn)行狀態(tài)監(jiān)控和配置管理監(jiān)督
安裝了大量組件的IT機(jī)柜是勞動密集型工作,因此檢查工作可能會存在不及時(shí)和不徹底情況。運(yùn)行狀態(tài)監(jiān)視可檢查設(shè)備配置是否正確以及性能是否達(dá)到預(yù)期效果。
數(shù)據(jù)中心內(nèi)還有許多需要定期維護(hù)的物理設(shè)備。AI系統(tǒng)不僅可以對這些物理設(shè)備進(jìn)行定期維護(hù),還可收集和分析遙測數(shù)據(jù),幫助確定需要立即關(guān)注的特定區(qū)域。以大量傳感數(shù)據(jù)日志為基礎(chǔ)的預(yù)測性設(shè)備故障建??梢园l(fā)現(xiàn)迫在眉睫的組件或設(shè)備故障,并評估是否需要立即維護(hù)以避免服務(wù)中斷。
人工智能系統(tǒng)最終可能會實(shí)現(xiàn)“告訴我問題出在哪里,我去解決這些問題”,但是即便實(shí)現(xiàn)了這一功能,許多數(shù)據(jù)中心運(yùn)營商可能只會接受“如果出了問題,請告訴我要去哪里查看就行了。”
保持設(shè)備平穩(wěn)安全運(yùn)行的另一個(gè)重要環(huán)節(jié)是控制“配置漂移”。AI可作為“額外的安全檢查”,可幫助識別出由于配置導(dǎo)致的數(shù)據(jù)中心問題。(注:配置漂移為數(shù)據(jù)中心術(shù)語,指臨時(shí)配置隨著時(shí)間的變化可能會導(dǎo)致一些問題的發(fā)生。)
部署AI所面臨的挑戰(zhàn)
優(yōu)化和自動化數(shù)據(jù)中心是數(shù)字化轉(zhuǎn)型計(jì)劃中不可或缺的一部分。新冠疫情讓許多公司開始尋求數(shù)據(jù)中心的進(jìn)一步自動化,實(shí)現(xiàn)數(shù)字?jǐn)?shù)據(jù)中心由AI驅(qū)動并可自我修復(fù)。這使得AI在數(shù)據(jù)中心中具有廣闊的應(yīng)用前景。一些AI/ML功能可用于事件處理、基礎(chǔ)設(shè)施運(yùn)行狀況和散熱優(yōu)化。
盡管如此,要想讓AI/ML模型超越目前的標(biāo)準(zhǔn)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)需要有更多突破,和更多的時(shí)間。這與自動駕駛汽車的發(fā)展極為類似,早期階段可能非常具有吸引力,但是與最終承諾的顛覆性經(jīng)濟(jì)/商業(yè)案例相比仍然相去甚遠(yuǎn)。
AIOps平臺的成熟度、IT技能和運(yùn)維成熟度均為重大挑戰(zhàn)。更高級別的部署面臨的挑戰(zhàn)還包括數(shù)據(jù)質(zhì)量,以及IT基礎(chǔ)設(shè)施和運(yùn)維團(tuán)隊(duì)缺乏數(shù)據(jù)科學(xué)技能。此外,需要雇用或培訓(xùn)合適的人來管理系統(tǒng),以及需要數(shù)據(jù)標(biāo)準(zhǔn)和相關(guān)體系結(jié)構(gòu)都是部署AI時(shí)所面臨的挑戰(zhàn)。
但是自始至終最大的挑戰(zhàn)還是在于人。各種基礎(chǔ)設(shè)施的運(yùn)維人員都在做放權(quán)給AI的準(zhǔn)備。但是如果人們并不信任做出決定的決策者,那么在如此大規(guī)模的過渡期間人員如何培訓(xùn),如何安撫人員的情緒?在過渡期間,人們普遍會想一個(gè)問題,那就是如果自己照做了,自己會失業(yè)嗎?
對許多企業(yè)來說,不僅聘用到資深的數(shù)據(jù)科學(xué)家是一個(gè)挑戰(zhàn),就連培訓(xùn)現(xiàn)有員工也困難重重。因?yàn)槠髽I(yè)員工抵制技術(shù)的傳統(tǒng)由來已久。以軟件定義網(wǎng)絡(luò)(SDN)為例,SDN已經(jīng)推出十年了,但是仍有3/4以上的IT運(yùn)維在使用命令行界面。