導讀:北京2023年8月16日 -- 8月10日,在OCP China Day 2023(開放計算中國技術(shù)峰會)上,浪潮信息重磅發(fā)布融合架構(gòu)3.0原型系統(tǒng),以開創(chuàng)性的系統(tǒng)架構(gòu)設(shè)計實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發(fā)存儲、亞微秒級遠端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)"一套系統(tǒng),N類應(yīng)用"。
北京2023年8月16日 -- 8月10日,在OCP China Day 2023(開放計算中國技術(shù)峰會)上,浪潮信息重磅發(fā)布融合架構(gòu)3.0原型系統(tǒng),以開創(chuàng)性的系統(tǒng)架構(gòu)設(shè)計實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發(fā)存儲、亞微秒級遠端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)"一套系統(tǒng),N類應(yīng)用"。
融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,將有望發(fā)展出一種全解耦、全池化、高可擴展、易部署、易管理的新型硬件基礎(chǔ)架構(gòu),緩解馮·諾依曼架構(gòu)瓶頸,實現(xiàn)軟硬高度協(xié)同,加速數(shù)據(jù)中心釋放數(shù)字生產(chǎn)力,促進數(shù)字經(jīng)濟發(fā)展以及與實體經(jīng)濟的深度融合。
多數(shù)字技術(shù)融合亟需硬件基礎(chǔ)架構(gòu)創(chuàng)新
當前,數(shù)字化、智能化轉(zhuǎn)型已成為企業(yè)發(fā)展、科研創(chuàng)新和社會治理的剛性需求,也催生了云計算、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)的蓬勃發(fā)展。然而,越來越多樣化的應(yīng)用對底層硬件資源的需求存在差異,導致使用傳統(tǒng)架構(gòu)的云、數(shù)、智、邊、端等各類技術(shù)平臺彼此獨立,硬件資源難以共享復用,造成資源浪費的同時也使得運維管理難度激增。
同時,應(yīng)用數(shù)量的增多以及應(yīng)用規(guī)模的擴大,也在進一步推動數(shù)據(jù)中心向集中化、規(guī)?;l(fā)展。即便數(shù)據(jù)中心已普遍采用分布式架構(gòu),但設(shè)備間的互連網(wǎng)絡(luò)帶寬遠低于主板內(nèi)和設(shè)備內(nèi)的互連帶寬,并且網(wǎng)絡(luò)協(xié)議復雜、層次眾多,協(xié)議的轉(zhuǎn)換和處理占用了大量系統(tǒng)資源,使得業(yè)務(wù)系統(tǒng)擴展性受到嚴重限制,需要一種可擴展性更優(yōu)、易管理性更好的硬件基礎(chǔ)架構(gòu),從而實現(xiàn)數(shù)據(jù)中心的輕松擴容。
此次浪潮信息發(fā)布的融合架構(gòu)3.0原型系統(tǒng),通過系統(tǒng)架構(gòu)創(chuàng)新解耦重構(gòu)服務(wù)器系統(tǒng),突破性實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,可支持多種通用處理器平臺與GPU、FPGA、DPU等多種異構(gòu)加速單元的協(xié)同計算,并可通過軟件定義實現(xiàn)資源協(xié)同動態(tài)調(diào)度。這種基于硬件重構(gòu)技術(shù)而開發(fā)的新一代基礎(chǔ)架構(gòu),將實現(xiàn)更加自由的資源隨需定義,為上層軟件定義系統(tǒng)提供更出色的靈活性,使其能夠根據(jù)應(yīng)用特點,以高度自動化的方式分配與重新配置硬件資源,不再受到非動態(tài)設(shè)置的硬件基礎(chǔ)設(shè)施的限制,讓數(shù)據(jù)中心內(nèi)部的人工智能、科學計算、云計算、大數(shù)據(jù)等各類應(yīng)用統(tǒng)一運行于同一架構(gòu)之上,實現(xiàn)多技術(shù)平臺融合,加速業(yè)務(wù)創(chuàng)新及數(shù)字化轉(zhuǎn)型。
融合架構(gòu)3.0原型系統(tǒng)顛覆傳統(tǒng):一套架構(gòu),N類應(yīng)用
"一套架構(gòu),N類應(yīng)用"是融合架構(gòu)3.0原型系統(tǒng)的核心價值所在。一切數(shù)字化、一切智能化,實際上是物理世界和數(shù)字世界逐步深度融合的過程,需要多種多樣的數(shù)字技術(shù)支撐,但不同的技術(shù)對硬件架構(gòu)的要求不同,各技術(shù)平臺之間很難實現(xiàn)資源共享復用。比如,以大模型為代表的AIGC技術(shù)需要基于海量數(shù)據(jù)集,在擁有成百上千AI加速卡的集群上對千億級參數(shù)的AI大模型進行分布式訓練,對異構(gòu)算力的需求更高;科學計算要求更高的計算精度,對通用算力的需求更高;內(nèi)存計算則希望讓更多應(yīng)用程序的數(shù)據(jù)駐留在內(nèi)存之中,使得數(shù)據(jù)和算力更接近,以提高處理速率,對內(nèi)存容量要求更高。但傳統(tǒng)架構(gòu)下,IT資源的擴展是以整機形態(tài)來完成的,即便用戶亟需的是某種特定資源,但仍然需要為整機附帶的額外資源付費,這勢必增加了IT支出并造成資源閑置浪費。
融合架構(gòu)3.0原型機打破了以往"以CPU為中心"的設(shè)計理念,而是從整體出發(fā),以系統(tǒng)為中心,通過硬件解耦將異構(gòu)計算、內(nèi)存、存儲等資源轉(zhuǎn)變?yōu)榭瑟毩U展的資源池,用戶可以根據(jù)應(yīng)用需求實現(xiàn)資源自由擴展。其中,內(nèi)存解耦不僅實現(xiàn)了亞微秒級遠端內(nèi)存訪問,并且構(gòu)建出一種邏輯上可遠端共享的內(nèi)存資源池,讓多臺主機訪問同一個內(nèi)存池,大大提高數(shù)據(jù)交換的效率,讓Spark、Hadoop和機器學習等使用分布式數(shù)據(jù)框架的應(yīng)用,能夠更順暢地實現(xiàn)框架內(nèi)各節(jié)點間的數(shù)據(jù)交換與協(xié)作,顯著提升數(shù)據(jù)處理效率。同時,內(nèi)存解耦解除了與主機的綁定,也能讓大規(guī)模、超大規(guī)模數(shù)據(jù)中心通過減少孤置的內(nèi)存來提高內(nèi)存資源的利用率,實現(xiàn)動態(tài)內(nèi)存擴展,從而降低成本支出。此外,內(nèi)存池化共享還可以通過本地和遠端的內(nèi)存,開發(fā)更多高級數(shù)據(jù)功能,比如內(nèi)存數(shù)據(jù)流動或者內(nèi)存數(shù)據(jù)高可用技術(shù)等。
融合架構(gòu)3.0原型系統(tǒng)采用整機柜形態(tài),所有的主機與資源均通過統(tǒng)一的管理、散熱、供電實現(xiàn)高度集成,整體形成一個異構(gòu)高算力、I/O資源和內(nèi)存資源可按需拓展,資源靈活調(diào)度分配的新型"服務(wù)器"。其中,多層次多協(xié)議整系統(tǒng)管理、高壓直流供電和負壓真空CDU液冷等創(chuàng)新技術(shù)的開發(fā)應(yīng)用,在實現(xiàn)數(shù)據(jù)中心細粒度、智能化管理的同時,也極大緩解了大量使用高功耗處理器引發(fā)的"功耗墻"問題。
融合架構(gòu)是浪潮信息于2014年提出的技術(shù)理念,核心在于通過硬件解耦實現(xiàn)資源的物理池化和動態(tài)重構(gòu),通過軟件定義實現(xiàn)業(yè)務(wù)感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴展,實現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構(gòu)的發(fā)展劃分為三個階段,分別為 "服務(wù)器即計算機(Server as a Computer)" ,"機柜即計算機(Rack as a Computer)"以及最終的"數(shù)據(jù)中心即計算機(Data Center as a Computer)"。此次融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,意味著浪潮信息正向融合架構(gòu)的終極目標邁進。