導讀:摩爾線程宣布,其 AI 旗艦產品夸娥(KUAE)智算集群解決方案從當前的千卡級別擴展至萬卡規(guī)模。
7 月 3 日消息,摩爾線程宣布,其 AI 旗艦產品夸娥(KUAE)智算集群解決方案從當前的千卡級別擴展至萬卡規(guī)模。
摩爾線程夸娥萬卡智算集群,以全功能 GPU 為底座,打造能夠承載萬卡規(guī)模、具備萬 P 級浮點運算能力的國產通用加速計算平臺,專為萬億參數(shù)級別的復雜大模型訓練而設計。
夸娥萬卡智算解決方案具備以下核心特性:
萬卡萬 P:夸娥智算集群實現(xiàn)單集群規(guī)模超萬卡,浮點運算能力達到 10Exa-Flops,達到 PB 級的超大顯存總容量、每秒 PB 級的超高速卡間互聯(lián)總帶寬和每秒 PB 級超高速節(jié)點互聯(lián)總帶寬。
長穩(wěn)訓練:摩爾線程夸娥萬卡集群平均無故障運行時間超過 15 天,最長可實現(xiàn)大模型穩(wěn)定訓練 30 天以上,周均訓練有效率在 99% 以上,遠超行業(yè)平均水平。
高 MFU:夸娥萬卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化,實現(xiàn)大模型的高效率訓練,MFU(評估大模型訓練效率的通用指標)最高可達到 60%。
生態(tài)友好:可加速 LLM、MoE、多模態(tài)、Mamba 等不同架構、不同模態(tài)的大模型?;?MUSA 編程語言、完整兼容 CUDA 能力和自動化遷移工具 Musify,加速新模型“Day0”級遷移。
IT之家獲悉,摩爾線程將開展三個萬卡集群項目,分別為青海零碳產業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目。