應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

中國(guó)移動(dòng)發(fā)布“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0,支持多品牌萬(wàn)卡集群

2024-12-04 08:49 IT之家

導(dǎo)讀:在 11 月底的 2024 中國(guó)信息通信大會(huì)“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上,中國(guó)移動(dòng)研究院副院長(zhǎng)段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴,發(fā)布了“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0。

  12 月 3 日消息,在 11 月底的 2024 中國(guó)信息通信大會(huì)“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上,中國(guó)移動(dòng)研究院副院長(zhǎng)段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴,發(fā)布了“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0。

  據(jù)介紹,“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)具備基于非均勻計(jì)算任務(wù)切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信兩大核心能力。

  基于 ITD 算法的 3D 并行技術(shù)可通過(guò)通用混合訓(xùn)練框架實(shí)現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,實(shí)現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整;

  基于 GDR 的異構(gòu)芯片高速通信技術(shù)可在不改變芯片原有通信接口基礎(chǔ)上,通過(guò)定義數(shù)據(jù)傳輸架構(gòu)、流程及接口標(biāo)準(zhǔn),屏蔽底層硬件差異,實(shí)現(xiàn)頂層訓(xùn)練任務(wù)在異構(gòu)算力集群上分布式通信的無(wú)感拆解。

  中國(guó)移動(dòng)透露,當(dāng)前,系統(tǒng)已實(shí)現(xiàn)百億參數(shù)大模型在英偉達(dá)、天數(shù)智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合訓(xùn)練,規(guī)??芍С秩f(wàn)卡集群,訓(xùn)練加速比達(dá) 95% 以上,達(dá)到“業(yè)界領(lǐng)先水平”,未來(lái)將在提升智能算力資源利用率及促進(jìn)國(guó)產(chǎn)算力發(fā)展等方面發(fā)揮重要作用。

  此外,中國(guó)移動(dòng)攜手華為、瀚博、澎峰、海光、天數(shù)智芯等產(chǎn)業(yè)合作伙伴在論壇上發(fā)布了智算“芯合”算力原生基礎(chǔ)軟件棧 2.0。

  IT之家查詢公開(kāi)資料獲悉,中國(guó)移動(dòng)于 2023 年研發(fā)并發(fā)布“芯合”算力原生基礎(chǔ)軟件棧 1.0,首次實(shí)現(xiàn)智算應(yīng)用一鍵式跨芯遷移的目標(biāo),已在山東、廣西等多省市的路橋檢測(cè)、智能安防等場(chǎng)景試點(diǎn)應(yīng)用,降低智算應(yīng)用向國(guó)產(chǎn)化芯片遷移的復(fù)雜度。

  “芯合”基礎(chǔ)軟件棧 2.0 相較于之前實(shí)現(xiàn)了三大升級(jí):

  •   一是能力升級(jí),全面重構(gòu)算力抽象模型,插件化靈活接入英偉達(dá)、華為、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多編程范式,支持泛 AI 應(yīng)用的跨芯遷移。

  •   二是性能升級(jí),新增對(duì)標(biāo) CUDA 的 DNN、BLAS 等高性能計(jì)算庫(kù),提供圖算融合編譯優(yōu)化能力,實(shí)現(xiàn)性能大幅提升,當(dāng)前應(yīng)用跨架構(gòu)遷移損耗已降低至 10% 以內(nèi)。

  •   三是效率升級(jí),構(gòu)建面向智算應(yīng)用的“跨架構(gòu)軟件工廠”,提供統(tǒng)一開(kāi)發(fā)、調(diào)試、優(yōu)化、部署、遷移全生命周期服務(wù)能力,縮短應(yīng)用開(kāi)發(fā)、上線時(shí)間,提升整體研發(fā)效率。

  中國(guó)移動(dòng)透露,當(dāng)前,“芯合”算力原生基礎(chǔ)軟件棧 2.0 已實(shí)現(xiàn)泛 AI 應(yīng)用在英偉達(dá)、英特爾、華為、瀚博、天數(shù)智芯、海光 6 家智算芯片間的一鍵式跨芯流轉(zhuǎn)遷移,源源轉(zhuǎn)換效率 > 95%,遷移性能損耗 < 10%,遷移時(shí)間 < 20s,已具備規(guī)模商用條件,未來(lái)將在提升智能算力網(wǎng)絡(luò)自主可控水平方面發(fā)揮重要作用。