技術(shù)
導(dǎo)讀:云數(shù)據(jù)中心在硬件、軟件和基礎(chǔ)架構(gòu)上需要巨大的投資,這反過來(lái)又推動(dòng)了性能、效率和投資回報(bào)方面的優(yōu)化。
云數(shù)據(jù)中心是系統(tǒng)計(jì)算架構(gòu)的終極形式。云數(shù)據(jù)中心可以完成最密集的計(jì)算任務(wù),例如COVID疫苗的科學(xué)建模、從數(shù)十億的數(shù)據(jù)點(diǎn)開發(fā)人工智能模型等等。因此,云數(shù)據(jù)中心需要在硬件、軟件和基礎(chǔ)架構(gòu)方面進(jìn)行巨大的投資,而這反過來(lái)又推動(dòng)了性能、效率和投資回報(bào)(ROI)方面的優(yōu)化。
這些需求正在推動(dòng)數(shù)據(jù)中心架構(gòu)的變化,使得處理器和加速器的優(yōu)化正朝著基于每一種工作負(fù)載的方向發(fā)展。我們看到的例子包括定制處理器的興起和圖形處理單元(GPU)、數(shù)字信號(hào)處理器(DSP)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、神經(jīng)處理單元(NPU)的使用以及利用定制加速器處理進(jìn)入或通過數(shù)據(jù)中心的數(shù)據(jù)。更多專業(yè)加速器的使用正在興起,其中之一名為數(shù)據(jù)處理單元(DPU)或基礎(chǔ)架構(gòu)處理單元(IPU),以下簡(jiǎn)稱為DPU。DPU可用于運(yùn)行數(shù)據(jù)中心內(nèi)特定的工作負(fù)載,包括安全、網(wǎng)絡(luò)管理、存儲(chǔ)管理和其他操作功能。
利用協(xié)處理器進(jìn)行內(nèi)部加速其實(shí)不是什么新鮮事,而上述的DPU則將協(xié)處理器的概念提升到一個(gè)新的水平。DPU并不僅僅是一個(gè)獨(dú)立的處理器。DPU是加速器,可能配有專門的或可編程的處理元件,以達(dá)到加速關(guān)鍵數(shù)據(jù)中心任務(wù)的目的,這樣做使得主要處理元件(通常是服務(wù)器處理器)可以專門用于創(chuàng)造收入的任務(wù)。而且,DPU也與系統(tǒng)架構(gòu)緊密地整合在一起,可以與主機(jī)處理器和工作負(fù)載加速器緊密合作。因此,DPU可以為數(shù)據(jù)中心的處理提供重要提升。根據(jù)Nvidia提供的一些數(shù)據(jù),其貢獻(xiàn)可能高達(dá)2倍之多。那么,既然云計(jì)算數(shù)據(jù)中心可以受益于DPU,企業(yè)服務(wù)器也可以受益于DPU嗎?答案是肯定的。
服務(wù)器這個(gè)詞對(duì)不同的人和不同的行業(yè)可能會(huì)有不同的含義,但服務(wù)器實(shí)際上只是一個(gè)連接在網(wǎng)絡(luò)上的計(jì)算資源,通常不支持通過用戶界面設(shè)備直接訪問,如鍵盤、鼠標(biāo)和顯示器。具備特定用戶接口的客戶服務(wù)或其他服務(wù)器可以通過網(wǎng)絡(luò)訪問服務(wù)器。許多云服務(wù)器可能專門用于完成特定的功能或處理某些數(shù)據(jù)類型,企業(yè)服務(wù)器則不同,企業(yè)服務(wù)器可能負(fù)責(zé)為組織內(nèi)部的各種團(tuán)體執(zhí)行廣泛的功能。我們可以把企業(yè)服務(wù)器想象成一個(gè)組織的數(shù)字瑞士軍刀。
一臺(tái)企業(yè)服務(wù)器可以運(yùn)行制造業(yè)的庫(kù)存系統(tǒng),這時(shí)候就是銷售部門的客戶資源管理(CRM)平臺(tái),企業(yè)服務(wù)器也可能運(yùn)行采購(gòu)部門的發(fā)票系統(tǒng),或托管工程設(shè)計(jì)應(yīng)用,或?yàn)檎麄€(gè)組織提供辦公生產(chǎn)力工具。企業(yè)服務(wù)器需要滿足各種廣泛的要求,但即便這樣,DPU也是有益的,甚至在某些方面比用于云環(huán)境更有益。在企業(yè)服務(wù)器上運(yùn)行的各種應(yīng)用都需要提供一些基本功能,包括存儲(chǔ)和檢索數(shù)據(jù)、管理網(wǎng)絡(luò)上的數(shù)據(jù)流并確保數(shù)據(jù)的安全性,數(shù)據(jù)可能來(lái)自于廣泛的數(shù)據(jù)源和消費(fèi)者,消費(fèi)者同時(shí)又需要訪問這些數(shù)據(jù)。而DPU則正好更好地管理這些功能。此外,DPU(例如Nvidia的Bluefield)配備了加速器,可用于加速其他功能(例如運(yùn)行數(shù)據(jù)分析或使用人工智能算法、效率、網(wǎng)絡(luò)維護(hù))或用于維護(hù)其他企業(yè)資源,例如存儲(chǔ)或精確的時(shí)間同步。DPU整合到企業(yè)服務(wù)器中可以提高平臺(tái)的整體性能,同時(shí),通過接管那些可能不太適合傳統(tǒng)的基于CPU主機(jī)處理器的開銷任務(wù),進(jìn)而減少服務(wù)器需要的增加。
DPU的硬件和軟件仍在發(fā)展,而且發(fā)展迅速,這一點(diǎn)值得注意。整個(gè)行業(yè)都在努力開發(fā)和實(shí)現(xiàn)DPU,但不同的芯片和服務(wù)器供應(yīng)商提供了不同的解決方案。目前,芯片供應(yīng)商AMD(Xilinx和Pensando)、Broadcom、Fungible、英特爾、Nvidia和Marvell都提供了DPU類別的產(chǎn)品,但在架構(gòu)和功能方面存在很大的差別。
數(shù)據(jù)中心DPU的引入正在改變數(shù)據(jù)中心未來(lái)的系統(tǒng)架構(gòu),正如Nvidia的黃仁勛在GTC問答環(huán)節(jié)所指出的,這只是DPU的開始。DPU的使用增加后,一些功能可能會(huì)被分解成更多的專門加速器,其發(fā)展和我們現(xiàn)在看到的工作負(fù)載加速器一樣。我們的存儲(chǔ)可能用一顆DPU,網(wǎng)絡(luò)用另一顆DPU,安全又用另一顆DPU。這些功能可以在獨(dú)立的芯片中實(shí)現(xiàn),也可以作為單獨(dú)的晶粒堆疊在一起實(shí)現(xiàn)。實(shí)現(xiàn)這些加速器的最佳方式也在隨著半導(dǎo)體制造和封裝技術(shù)的發(fā)展而變化,但很明顯,DPU將成為業(yè)界寵兒。TIRIAS Research認(rèn)為,DPU不僅會(huì)對(duì)云數(shù)據(jù)中心的設(shè)計(jì)產(chǎn)生重大影響,也會(huì)對(duì)企業(yè)服務(wù)器的設(shè)計(jì)產(chǎn)生重大影響。