技術(shù)
導(dǎo)讀:北京2022年12月13日 -- 隨著5G、人工智能、云計(jì)算、大數(shù)據(jù)等新興技術(shù)的飛速發(fā)展,數(shù)據(jù)正在經(jīng)歷爆炸式增長(zhǎng),對(duì)算力規(guī)模和算力能力的需求快速提升,數(shù)據(jù)中心向著規(guī)?;?、集約化、綠色化不斷進(jìn)階,這對(duì)數(shù)據(jù)中心的建設(shè)、運(yùn)維和管理都提出了更高的要求。
北京2022年12月13日 -- 隨著5G、人工智能、云計(jì)算、大數(shù)據(jù)等新興技術(shù)的飛速發(fā)展,數(shù)據(jù)正在經(jīng)歷爆炸式增長(zhǎng),對(duì)算力規(guī)模和算力能力的需求快速提升,數(shù)據(jù)中心向著規(guī)?;?、集約化、綠色化不斷進(jìn)階,這對(duì)數(shù)據(jù)中心的建設(shè)、運(yùn)維和管理都提出了更高的要求。
盡管許多企業(yè)對(duì)在數(shù)據(jù)中心的投資十分重視,但卻往往卻忽略了后期運(yùn)營(yíng)管理的成本,在提高計(jì)算力部署的同時(shí),后期的運(yùn)維和管理也相當(dāng)重要。對(duì)此,憑借多年來(lái)在數(shù)據(jù)中心運(yùn)維和管理經(jīng)驗(yàn),浪潮信息M6服務(wù)器采用了自主研發(fā)的服務(wù)器遠(yuǎn)程管理系統(tǒng)ISBMC,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,ISBMC已支持多種管理接口,這其中就包括IPMI 2.0、SNMPv3、Web GUI和基于RESTful架構(gòu)的Redfish等接口,通過(guò)多種保障來(lái)強(qiáng)化服務(wù)器自身的管理能力,構(gòu)建現(xiàn)代數(shù)據(jù)中心的可靠基礎(chǔ),幫助用戶高效地管理算力平臺(tái)。
基于開(kāi)放標(biāo)準(zhǔn) 模塊化、精細(xì)化管理
故事要從1988年講起,為了擺脫需要人工在數(shù)據(jù)中心現(xiàn)場(chǎng)運(yùn)維服務(wù)器的困境,行業(yè)推出了IPMI作為行業(yè)標(biāo)準(zhǔn),它指定了一組接口,以提供獨(dú)立于主機(jī)系統(tǒng)的CPU、固件和操作系統(tǒng)(OS)的帶外管理和監(jiān)視功能。然而,由于技術(shù)不斷發(fā)展優(yōu)化,有越來(lái)越多碎片化的需求,致使特定的解決方案不能滿足向外擴(kuò)展的數(shù)據(jù)中心用戶的功能和安全需求,IPMI也在2015年后便不再更新。此后迎來(lái)了Redfish的新時(shí)代。
Redfish是由國(guó)際標(biāo)準(zhǔn)化組織DMTF(Distributed Management Task Force,分布式管理任務(wù)組)發(fā)布的開(kāi)放式行業(yè)標(biāo)準(zhǔn)規(guī)范,旨在對(duì)平臺(tái)硬件進(jìn)行現(xiàn)代化和安全的管理,由多個(gè)軟硬件廠商參與,在標(biāo)準(zhǔn)設(shè)立之初就設(shè)定了四項(xiàng)基本目標(biāo): 安全、高可擴(kuò)展管理、可讀取界面、基于現(xiàn)有硬件可實(shí)現(xiàn)。目前,浪潮信息已成為DMTF Leadership 會(huì)員和Redfish Promoter 會(huì)員。Redfish標(biāo)準(zhǔn)的應(yīng)用讓眾多互聯(lián)網(wǎng)、通信、金融客戶可以更加方便快捷的對(duì)超大規(guī)模的數(shù)據(jù)中心進(jìn)行管理和運(yùn)維。標(biāo)準(zhǔn)開(kāi)放的接口,為客戶數(shù)據(jù)中心構(gòu)建了一個(gè)開(kāi)放的生態(tài),大幅度降低運(yùn)維難度,但是基礎(chǔ)的功能實(shí)現(xiàn),并不是浪潮信息研發(fā)團(tuán)隊(duì)的目標(biāo),“源于開(kāi)源、高于開(kāi)源”,讓生態(tài)有更強(qiáng)的活力,為客戶帶來(lái)更多價(jià)值,才是浪潮信息服務(wù)器研發(fā)團(tuán)隊(duì)引入Redfish的“本心”。
據(jù)統(tǒng)計(jì),企業(yè)IT設(shè)備的更新頻率一般是3-5年,那就意味著每臺(tái)服務(wù)器的生命周期要達(dá)到3年以上,可想而知,周而復(fù)始每天對(duì)服務(wù)器狀態(tài)進(jìn)行不間斷監(jiān)控,定期對(duì)服務(wù)器出具安全性能檢測(cè)報(bào)告,特別對(duì)于超大規(guī)模數(shù)據(jù)中心而言,無(wú)疑是需要投入大量的人力和精力。所以,浪潮信息的工程師決定通過(guò)優(yōu)化產(chǎn)品設(shè)計(jì),尋求突破。
想打造具有高可靠、高可維護(hù)性的服務(wù)器,以解決上述超大規(guī)模數(shù)據(jù)中心客戶的運(yùn)維難題,就要用好Redfish的特性,通過(guò)覆蓋Public、AccountService、SessionService、Chassis、Systems、Managers、UpdateService、TaskService等功能模塊,定義不同接口的URL,讓服務(wù)器的管理實(shí)現(xiàn)模塊化和精細(xì)化。
依托自身技術(shù)優(yōu)勢(shì),浪潮信息在M6系列服務(wù)器ISBMC固件上遵照Redfish 1.8.0規(guī)范和Redfish 2019.2 Schema進(jìn)行開(kāi)發(fā),ISBMC不僅在Redfish標(biāo)準(zhǔn)的節(jié)點(diǎn)資源有較高的覆蓋率,還結(jié)合浪潮服務(wù)器自身特性功能及客戶領(lǐng)先性訴求,進(jìn)行功能開(kāi)發(fā),如通信行業(yè)客戶對(duì)包括lldpService、電源設(shè)置、部件信息獲取與設(shè)置服務(wù)器在內(nèi)的上百個(gè)需求功能點(diǎn),以及頭部科技行業(yè)客戶的通電開(kāi)機(jī)策略、多個(gè)Redfish故障診斷需求等。
為了讓大多數(shù)企業(yè)也可以享受到先進(jìn)技術(shù)帶來(lái)的便利,浪潮信息也將先進(jìn)的功能融入到ISBMC通用版本,同時(shí)增加更多的系統(tǒng)監(jiān)控動(dòng)作幫助客戶解決運(yùn)維和管理難題,實(shí)現(xiàn)包括用戶管理、獲取服務(wù)器信息、管理模塊信息、配置服務(wù)器、修改BIOS、升級(jí)固件等功能,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,以標(biāo)準(zhǔn)化接口構(gòu)建更加完善的服務(wù)器管理生態(tài)系統(tǒng),確保服務(wù)器底層硬件和固件的安全。浪潮信息同時(shí)開(kāi)創(chuàng)了特有的異步多線程Redfish架構(gòu),實(shí)現(xiàn)了Redfish的高度模塊化,可快速地實(shí)現(xiàn)跨多平臺(tái)移植,并在響應(yīng)時(shí)間、并發(fā)數(shù)等接口性能參數(shù)上相比上代產(chǎn)品有30%以上的提升,API平均響應(yīng)小于100ms。
打開(kāi)上帝視角 讓運(yùn)維更簡(jiǎn)單
攻克了單一產(chǎn)品的難題后,浪潮信息工程師也在從數(shù)據(jù)中心的整體運(yùn)維上進(jìn)行思考,通過(guò)與大量的大型數(shù)據(jù)中心客戶交流發(fā)現(xiàn),數(shù)據(jù)中心的運(yùn)維工作大量集中在問(wèn)題爆發(fā)后解決的過(guò)程中,而在解決過(guò)程中對(duì)日志的排查、機(jī)器的檢測(cè)、系統(tǒng)的修復(fù)等工作需要不斷反復(fù),這給運(yùn)維人員的工作造成了極大的挑戰(zhàn),而且問(wèn)題一旦發(fā)生必將對(duì)業(yè)務(wù)造成影響。如何解放運(yùn)維人員的雙手,讓問(wèn)題在沒(méi)有發(fā)生前就能有效解決,堅(jiān)守現(xiàn)在,預(yù)見(jiàn)未來(lái),讓運(yùn)維人員打開(kāi)上帝視角,是數(shù)據(jù)中心運(yùn)維的終極目標(biāo)。
所以除了產(chǎn)品本身,為了給客戶提供多維合一的自動(dòng)管理方案,浪潮信息推出面向數(shù)據(jù)中心的集中管理軟件——浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)(ISPIM),并采用了Redfish作為主要通信協(xié)議。ISPIM具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動(dòng)部署、報(bào)表統(tǒng)計(jì)、網(wǎng)絡(luò)拓?fù)浜?D視圖等功能,可同時(shí)對(duì)數(shù)萬(wàn)臺(tái)不同品牌服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備進(jìn)行統(tǒng)一監(jiān)控、運(yùn)維、告警管理,運(yùn)維效率提升2倍,基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,可將故障診斷準(zhǔn)確率提升到93%,并且可在快速處理故障的同時(shí)極大程度降低數(shù)據(jù)泄露風(fēng)險(xiǎn),幫助用戶打造無(wú)人值守?cái)?shù)據(jù)中心,提高運(yùn)維效率并降低運(yùn)維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運(yùn)行。
最終,面向數(shù)據(jù)中心運(yùn)維的各種痛點(diǎn)與難題,逐一被擊破,浪潮信息M6系列服務(wù)搭配ISPIM管理軟件,基于這一套產(chǎn)品組合可滿足企業(yè)從單一產(chǎn)品到超大數(shù)據(jù)中心的由“點(diǎn)”到“面”可管理運(yùn)維的全鏈條優(yōu)化,保障數(shù)據(jù)中心高效運(yùn)維,為業(yè)務(wù)提供高效穩(wěn)定的運(yùn)行基礎(chǔ)。