應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

國(guó)產(chǎn)工業(yè)軟件背后的算力“戰(zhàn)爭(zhēng)”

2022-12-12 14:11 物聯(lián)網(wǎng)智庫(kù)
關(guān)鍵詞:算法算力

導(dǎo)讀:在傳統(tǒng)工業(yè)領(lǐng)域,大量的研發(fā)制造經(jīng)驗(yàn)通常存在資深人員的腦袋里,通過(guò)“老師傅帶徒弟”的方式來(lái)進(jìn)行傳承。而工業(yè)軟件的價(jià)值,則體現(xiàn)在把這些珍貴的經(jīng)驗(yàn)轉(zhuǎn)變成數(shù)據(jù)和算法,然后固化在軟件中。

在傳統(tǒng)工業(yè)領(lǐng)域,大量的研發(fā)制造經(jīng)驗(yàn)通常存在資深人員的腦袋里,通過(guò)“老師傅帶徒弟”的方式來(lái)進(jìn)行傳承。而工業(yè)軟件的價(jià)值,則體現(xiàn)在把這些珍貴的經(jīng)驗(yàn)轉(zhuǎn)變成數(shù)據(jù)和算法,然后固化在軟件中。

曾經(jīng),工業(yè)軟件是如同“掃地僧”般的存在。一方面,“他”非常低調(diào),普羅大眾幾乎不會(huì)對(duì)其給予特別的關(guān)注;另一方面,“他”實(shí)力強(qiáng)大,以人類基礎(chǔ)學(xué)科和工程知識(shí)集大成者的身份撐起了整個(gè)工業(yè)體系。

然而,近年來(lái)接連不斷的國(guó)際制裁,卻讓國(guó)產(chǎn)工業(yè)軟件暴露于聚光燈下,站上了風(fēng)口浪尖。CAD、CAE和EDA是工業(yè)軟件賽道中最難翻越的三座大山,當(dāng)前,國(guó)產(chǎn)產(chǎn)品在其中的表現(xiàn)可謂不容樂(lè)觀。

數(shù)據(jù)最能說(shuō)明現(xiàn)狀的嚴(yán)峻性:EDA軟件是芯片研發(fā)過(guò)程中不可或缺的關(guān)鍵設(shè)計(jì)工具,被業(yè)內(nèi)稱為“芯片之母”,而美國(guó)Synopsys、美國(guó)Cadence和德國(guó)Siemens EDA三巨頭卻占據(jù)了國(guó)內(nèi)將近90%的市場(chǎng),相比之下國(guó)產(chǎn)EDA廠商的份額只有可憐的11.5%。

研發(fā)設(shè)計(jì)類軟件CAD的情況甚至更加糟糕,綜合多家研究機(jī)構(gòu)的數(shù)據(jù)——法國(guó)達(dá)索、德國(guó)西門(mén)子、美國(guó)PTC以及美國(guó)Autodesk在我國(guó)市場(chǎng)占有率高達(dá)90%以上,國(guó)內(nèi)數(shù)碼大方、中望軟件、山大華天等只占不到10%的市場(chǎng)。和CAD關(guān)系緊密的仿真CAE軟件幾乎面臨著相同的局面,全球CAE市場(chǎng)基本被德國(guó)西門(mén)子、美國(guó)Ansys和法國(guó)達(dá)索前三大供應(yīng)商所主導(dǎo),中國(guó)CAE市場(chǎng)國(guó)產(chǎn)化率不足5%。

當(dāng)工業(yè)軟件化身別國(guó)手中的制裁大棒時(shí),國(guó)產(chǎn)工業(yè)軟件亟需打響一場(chǎng)“突圍戰(zhàn)”。在突圍的背后,除了扎實(shí)的基礎(chǔ)學(xué)科知識(shí)積累、市場(chǎng)用戶的驗(yàn)證、軟件本身產(chǎn)品力比拼外,還有不可忽視的隱藏致勝要素——算力。

CAE和HPC是一對(duì)“天作之合”

任何一件工業(yè)產(chǎn)品在推向市場(chǎng)之前都必須經(jīng)過(guò)反復(fù)驗(yàn)證,在工程領(lǐng)域,工程師的產(chǎn)品試驗(yàn)如同是“戴著鐐銬跳舞”。一副“鐐銬”是物理試驗(yàn)條件,為了滿足很多工業(yè)產(chǎn)品嚴(yán)苛的工況,相關(guān)生產(chǎn)樣件往往需要環(huán)境配合進(jìn)行高低溫試驗(yàn),比如等到冬天才能前往漠河開(kāi)始試驗(yàn),準(zhǔn)備時(shí)間長(zhǎng)、約束條件多;還有一些試驗(yàn),諸如發(fā)動(dòng)機(jī)燃燒室內(nèi)的汽油噴射和燃燒,物理試驗(yàn)條件根本無(wú)法模擬。另一副“鐐銬”是成本,為了驗(yàn)證新車(chē)的安全性,碰撞測(cè)試必不可少,但不可能測(cè)試一次就付出報(bào)廢一輛車(chē)的代價(jià)。

仿真軟件CAE通過(guò)將物理試驗(yàn)搬到虛擬世界中,讓這些問(wèn)題迎刃而解,變相地帶來(lái)了品質(zhì)的提升。尤其是在產(chǎn)品快速迭代的當(dāng)下,CAE的價(jià)值得到進(jìn)一步的凸顯。

回想一下,大學(xué)時(shí)我們求解高階多變量的方程式就已經(jīng)很困難了,而想要用CAE模擬更多、更復(fù)雜的物理過(guò)程,想要在虛擬世界里研究飛機(jī)的飛行,汽車(chē)的碰撞,想要擴(kuò)展到多物理場(chǎng)乃至實(shí)現(xiàn)“數(shù)字孿生”,其計(jì)算量可想而知。以“制造皇冠上的明珠”——航天發(fā)動(dòng)機(jī)為例,其研發(fā)過(guò)程涉及動(dòng)力學(xué)、傳熱學(xué)、材料力學(xué)、理論力學(xué)、流體力學(xué)、斷裂力學(xué)、彈性力學(xué)、機(jī)械動(dòng)力學(xué)等諸多學(xué)科,是牛頓力學(xué)時(shí)代所有力學(xué)的集大成,是所有科技成果的結(jié)晶。為了保障產(chǎn)品質(zhì)量,工程師需要驗(yàn)證各個(gè)部件在高溫、高壓、高轉(zhuǎn)速?gòu)?fù)雜環(huán)境下的工況,搞清楚部件相互之間如何影響,還同時(shí)要滿足高性能、長(zhǎng)壽命、高可靠、輕重量、安全性、經(jīng)濟(jì)性和日益苛刻的環(huán)保性等多維約束條件。如果每一個(gè)要素都要求解N個(gè)方程,CAE背后需要的計(jì)算量簡(jiǎn)直難以想象,強(qiáng)大的超算幾乎是必不可少的武器。

說(shuō)到計(jì)算,不知道大家是否記得當(dāng)年“兩彈元?jiǎng)住编嚰谙认壬兄频谝活w原子彈的故事。1959年,蘇聯(lián)停止對(duì)華技術(shù)援助,撤回所有專家。離開(kāi)前,有三位蘇聯(lián)核專家在課堂上留下了一個(gè)關(guān)于內(nèi)爆過(guò)程中產(chǎn)生壓力的技術(shù)指標(biāo)。但是,在研究人員歷經(jīng)二十天的計(jì)算之后,這個(gè)參數(shù)出現(xiàn)了偏差,計(jì)算工作因此陷入僵局。為了獲得準(zhǔn)確的結(jié)果,鄧稼先帶領(lǐng)研究人員用手搖計(jì)算機(jī)、計(jì)算尺乃至算盤(pán)反復(fù)計(jì)算,最后從理論上證明蘇聯(lián)數(shù)據(jù)是有問(wèn)題的。正確的參數(shù)給原子彈理論設(shè)計(jì)奠定了堅(jiān)實(shí)基礎(chǔ),1964年10月16日,我國(guó)第一顆原子彈爆炸成功。

image.png

國(guó)家博物館館藏 鄧稼先領(lǐng)導(dǎo)研制中國(guó)第一顆原子彈時(shí)使用的手搖計(jì)算機(jī)

如今,鄧稼先用過(guò)的那臺(tái)手搖計(jì)算機(jī)正安靜躺在中國(guó)國(guó)家博物館的展臺(tái)上,時(shí)代變遷,站在前人栽種的大樹(shù)下,現(xiàn)代科學(xué)家和工程師們擁有了無(wú)與倫比的計(jì)算資源和條件,HPC(高性能計(jì)算)帶來(lái)的算力資源為CAE等工業(yè)軟件提供了源源不斷的算力,讓CAE求解不僅能夠算得快,海量算力讓更高精度的計(jì)算可以在可接受的時(shí)間內(nèi)完成,也讓CAE算得更準(zhǔn)。

由于各種專業(yè)的仿真軟件都需要運(yùn)行在大量的算力資源上才能完成,CAE天生的求解計(jì)算從誕生之初就和HPC緊密結(jié)合。

CAE仿真過(guò)程的算力之痛

應(yīng)用CAE軟件對(duì)工程或產(chǎn)品進(jìn)行性能分析和模擬時(shí),一般要經(jīng)歷三道流程:前處理-求解-后處理。這個(gè)過(guò)程中,算力本應(yīng)該是支撐其計(jì)算的加速器,但如果算力資源的使用、分配和調(diào)度存在問(wèn)題,那么反而可能成為限制研發(fā)效率的桎梏。

在汽車(chē)行業(yè),近年來(lái)車(chē)廠的概念車(chē)層出不窮,一款款新車(chē)的成功上市,意味著背后的高效研發(fā)。而汽車(chē)本身又是一種極其復(fù)雜的產(chǎn)品,研發(fā)過(guò)程需要安全碰撞仿真、NVH噪聲仿真、CFD仿真等……當(dāng)前汽車(chē)CAE分析項(xiàng)種類最高多達(dá)600余種。

image.png

大多數(shù)汽車(chē)制造企業(yè)的CAE部門(mén)通常采用工作站模式進(jìn)行單機(jī)計(jì)算,這個(gè)過(guò)程存在很多問(wèn)題和挑戰(zhàn):

首先,汽車(chē)CAE仿真業(yè)務(wù)流程因文件拷貝存在“斷點(diǎn)”,工程師用個(gè)人工作站進(jìn)行前后處理,計(jì)算前要上傳文件到HPC,計(jì)算后要下載結(jié)果到個(gè)人工作站,加之往往研發(fā)中心和數(shù)據(jù)中心分隔兩地通過(guò)內(nèi)網(wǎng)互聯(lián),帶寬有限,工程師上傳和下載數(shù)據(jù)的等待時(shí)間并不增值,是妥妥的浪費(fèi);第二,對(duì)整車(chē)級(jí)別大型CAE模型、高精度渲染等場(chǎng)景,個(gè)人工作站有時(shí)性能不足,共享高性能工作站既不方便,也難以維護(hù),還帶來(lái)數(shù)據(jù)無(wú)意泄露的風(fēng)險(xiǎn);第三,車(chē)企在建設(shè)計(jì)算集群時(shí),硬件選型過(guò)程中,因?yàn)闆](méi)有建立專門(mén)的實(shí)驗(yàn)室、也不具備采購(gòu)各類設(shè)備進(jìn)行benchmark的能力,可用來(lái)測(cè)試的硬件設(shè)備非常有限,不同軟件的計(jì)算模型不同,對(duì)計(jì)算資源的性能要求也不一樣,如何從可獲得的各類硬件中選擇出最適合目標(biāo)應(yīng)用、最佳性價(jià)比的算力組合,一直是一個(gè)挑戰(zhàn);最后,項(xiàng)目研發(fā)過(guò)程中資源需求必然存在波峰波谷,單項(xiàng)目周期超過(guò)60%的時(shí)間資源不足,資源按部門(mén)分配,共享難度大,作業(yè)等待時(shí)間長(zhǎng),而車(chē)型數(shù)據(jù)凍結(jié)后,CAE需求銳減,資源閑置,企業(yè)也希望能進(jìn)一步平抑波動(dòng)提高對(duì)算力資源的利用率,從而降低HPC的擁有成本。

image.png

某中國(guó)高端品牌車(chē)型的代表性企業(yè)之一,就在高速發(fā)展過(guò)程中遭遇了這些挑戰(zhàn)。由于組織結(jié)構(gòu)和管理體系的問(wèn)題,其線下HPC資源均是購(gòu)買(mǎi)2~3年以上的V3和V4主機(jī),設(shè)備性能不滿足業(yè)務(wù)增長(zhǎng)要求;PamCrash碰撞計(jì)算需要用時(shí)超過(guò)30小時(shí)以上,研發(fā)部門(mén)工作效率很低。面對(duì)市場(chǎng)的壓力和激烈的競(jìng)爭(zhēng),該企業(yè)也在積極求變,并選擇華為HPC來(lái)幫助其消除這些煩惱。

具體而言,該企業(yè)采用國(guó)產(chǎn)高性能服務(wù)器,通過(guò)100G IB網(wǎng)絡(luò)連接。HPC資源建設(shè)在華為云廣州資源池上,從佛山分廠通過(guò)專線接入,高速訪問(wèn)HPC物理機(jī)集群, 同時(shí)通過(guò)華為公有云平臺(tái)組件提供網(wǎng)絡(luò)安全防護(hù)服務(wù)。在公有云中批量部署彈性云服務(wù)器,作為調(diào)度任務(wù)的計(jì)算節(jié)點(diǎn),計(jì)算任務(wù)從云下調(diào)度到云上執(zhí)行,計(jì)算結(jié)果自動(dòng)回傳到線下的NFS服務(wù)器。在這套完整解決方案的助力下,該企業(yè)取得的受益也非常顯著:其研發(fā)碰撞測(cè)試時(shí)間由原來(lái)線下30小時(shí)提高到線上18小時(shí)完成,效率提升40%。

從中我們可以看出,華為HPC方案的本質(zhì)是將其30余年積累的ICT技術(shù)和數(shù)字化實(shí)踐,以云的方式開(kāi)放分享給企業(yè)客戶,為企業(yè)構(gòu)建穩(wěn)定可靠、安全可信、可持續(xù)發(fā)展的新一代ICT基礎(chǔ)設(shè)施,這帶給客戶的優(yōu)勢(shì)顯而易見(jiàn)。

客戶可以基于極致性能的產(chǎn)品獲得業(yè)務(wù)增長(zhǎng)所需的算力。例如,華為T(mén)aiShan 200 Pro2480高性能服務(wù)器基于鯤鵬920處理器,最高能夠提供256核、3.0GHz主頻的計(jì)算能力和最多25個(gè)SSD硬盤(pán),適合為企業(yè)關(guān)鍵業(yè)務(wù)提供澎湃的高可靠算力。而這些算力如同從水龍頭里取水一樣方便——既免去了高昂的建設(shè)、管理成本,又能避免算力資源在項(xiàng)目的各個(gè)階段以及各部門(mén)之間分配不合理的情況,讓算力資源充分適配不同業(yè)務(wù)場(chǎng)景對(duì)高性能計(jì)算的需求。從長(zhǎng)期來(lái)看,這將幫助企業(yè)帶來(lái)效率的增長(zhǎng)和OPEX的降低。

CAE“算力”國(guó)產(chǎn)化敲響警鐘

正因?yàn)樗懔θ绱酥匾?,所以限制算力也能成為扼制的手段?/p>

數(shù)據(jù)顯示,2021年所有國(guó)內(nèi)服務(wù)器操作系統(tǒng)裝機(jī)量中,Linux市場(chǎng)占有率達(dá)到79.1%,CentOS是Linux生態(tài)下的優(yōu)秀開(kāi)發(fā)版本之一。據(jù)媒體報(bào)道,2021年12月31日,CentOS Linux 8 停止維護(hù),CentOS Linux 7于2020年第四季度停止更新,并將于2024年6月30日停止維護(hù),這意味著使用廣泛的CentOS服務(wù)器系統(tǒng)即將停服。CentOS作為免費(fèi)的、開(kāi)源的、可以重新分發(fā)的開(kāi)源操作系統(tǒng),在國(guó)內(nèi)服務(wù)器操作系統(tǒng)的占有率非常高,涉及到各個(gè)行業(yè)。對(duì)于用戶來(lái)講,CentOS停服后將無(wú)法得到官方的系統(tǒng)升級(jí)和補(bǔ)丁安裝支持,一旦發(fā)現(xiàn)新的安全漏洞并被黑客利用,將帶來(lái)宕機(jī)、服務(wù)中斷、數(shù)據(jù)泄露等風(fēng)險(xiǎn),網(wǎng)絡(luò)信息安全風(fēng)險(xiǎn)陡增。

不只是軟件和操作系統(tǒng),硬件方面的烏云也久久不散。2020年4月,英偉達(dá)官方宣布正式完成對(duì)Mellanox 70億美元的收購(gòu)。Mellanox是一家以色列芯片廠商,數(shù)十年來(lái)一直在InfiniBand和以太網(wǎng)互聯(lián)產(chǎn)品的研發(fā)領(lǐng)域深耕。2010年底,Mellanox曾收購(gòu)著名Infiniband交換機(jī)廠商Voltaire,這一收購(gòu)成就了其在高性能計(jì)算、云計(jì)算、數(shù)據(jù)中心、企業(yè)計(jì)算、存儲(chǔ)市場(chǎng)上的全面業(yè)務(wù)能力。眾所周知,今年9月,英偉達(dá)和AMD將對(duì)中國(guó)進(jìn)行高算力GPU斷供的消息刷屏各大科技媒體,雖然初期斷供范圍只是高端芯片,未來(lái)涉及的范圍難以預(yù)估。

市場(chǎng)上主流的CAE軟件中,歐美商業(yè)軟件居多,這些軟件都已適配x86硬件架構(gòu),但是對(duì)于新崛起的ARM架構(gòu)來(lái)說(shuō),至少還需要重新編譯才能使用。然而,編譯和性能優(yōu)化是需要源代碼的,讓這些歐美軟件開(kāi)放源碼,似乎是不可能的事情。

這些事件為工業(yè)軟件“算力”國(guó)產(chǎn)化敲響警鐘,未來(lái)工業(yè)軟件之戰(zhàn)的背后還有暗潮洶涌的算力戰(zhàn)爭(zhēng)。從這個(gè)角度來(lái)說(shuō),產(chǎn)業(yè)呼喚國(guó)產(chǎn)自主的HPC產(chǎn)品。而華為HPC基于華為自主研制的算、存、管、網(wǎng)、智5類芯片,具備硬件層的自主可控能力;支持國(guó)內(nèi)唯一自主演進(jìn)的openEuler操作系統(tǒng),從系統(tǒng)層面支持自主可控,免去卡脖子風(fēng)險(xiǎn)。垂直的全棧技術(shù)能力,才是算力和軟件持續(xù)演進(jìn)的堅(jiān)實(shí)保障。

基于全棧的優(yōu)勢(shì),華為100G AI Fabiric RoCE交換機(jī)針對(duì)高性能并行計(jì)算場(chǎng)景下常用的MPI協(xié)議進(jìn)行適配,通過(guò)在網(wǎng)計(jì)算、AI動(dòng)態(tài)水線等黑科技,將IP網(wǎng)絡(luò)做到和IB網(wǎng)絡(luò)差不多的性能,微秒級(jí)時(shí)延,滿負(fù)載下0丟包,成為平替Infiniband的選擇。其自研的多瑙調(diào)度系統(tǒng)也憑借0信任和支持多集群混合調(diào)度等特性贏得客戶青睞,從國(guó)外IBM Spectrum LSF以及Altair PBS Pro的包圍中贏得了屬于自己的份額,成為國(guó)產(chǎn)調(diào)度系統(tǒng)的新秀。

寫(xiě)在最后

《外交評(píng)論》雜志的一文中提及:當(dāng)前,國(guó)家間地緣經(jīng)濟(jì)競(jìng)爭(zhēng)模式隨著生產(chǎn)方式的變革而變化,數(shù)據(jù)、硬件與算法已成為數(shù)字時(shí)代最核心的生產(chǎn)資源,構(gòu)成了國(guó)家的數(shù)字資源。

數(shù)字化的底層競(jìng)爭(zhēng)是計(jì)算,計(jì)算的最終形態(tài)是智能。不僅限于前文提及的工業(yè)軟件,泛在計(jì)算都可以用HPC提供算力——諸如圖形渲染、AI訓(xùn)練、大數(shù)據(jù)計(jì)算等場(chǎng)景,只要能用“命令行”啟動(dòng)的任務(wù),都可以跑在調(diào)度系統(tǒng)上面,分時(shí)復(fù)用集群計(jì)算資源。

未來(lái)在數(shù)字經(jīng)濟(jì)時(shí)代占據(jù)高地,國(guó)人必須從底層構(gòu)建自己的計(jì)算平臺(tái),因?yàn)?strong>中國(guó)的鋼鐵長(zhǎng)城決不能建立在它國(guó)的沙子堆之上。自主創(chuàng)新是一條漫長(zhǎng)但必須堅(jiān)持的路,前路依然任重道遠(yuǎn),依然荊棘叢叢,但我們已經(jīng)啟程。