應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

中國(guó)電信基于 800GWDM 現(xiàn)網(wǎng)完成業(yè)界首例千卡分布式無(wú)損智算網(wǎng)驗(yàn)證

2024-09-03 09:13 IT之家

導(dǎo)讀:中國(guó)電信研究院、中國(guó)電信北京公司、天翼云公司共同在中國(guó)電信現(xiàn)網(wǎng)基于 800G C+L 技術(shù),為 1024 卡規(guī)模的分布式集群提供大容量帶寬,實(shí)現(xiàn) 120 公里千億參數(shù)大模型分布式訓(xùn)練,性能達(dá)到集中訓(xùn)練的 95% 以上。

  9 月 3 日消息,當(dāng)前,隨著智算卡數(shù)達(dá)到千卡、甚至萬(wàn)卡,所需帶寬往往高達(dá)百 T 比特級(jí)、甚至超 P 比特級(jí)。因此,光傳輸系統(tǒng)的大帶寬、高可靠與高效率的特點(diǎn)是保證分布式訓(xùn)練高算效的關(guān)鍵。

  中國(guó)電信集團(tuán)宣布,中國(guó)電信研究院、中國(guó)電信北京公司、天翼云公司共同在中國(guó)電信現(xiàn)網(wǎng)基于 800G C+L 技術(shù),為 1024 卡規(guī)模的分布式集群提供大容量帶寬,實(shí)現(xiàn) 120 公里千億參數(shù)大模型分布式訓(xùn)練,性能達(dá)到集中訓(xùn)練的 95% 以上。

  據(jù)介紹,針對(duì)數(shù)據(jù)傳輸?shù)拇髱拞?wèn)題,中國(guó)電信采用高階調(diào)制格式的單波長(zhǎng) 800G 技術(shù)以提高頻譜效率,配合當(dāng)前的業(yè)界熱點(diǎn)的 C+L 波段技術(shù)實(shí)現(xiàn)超大傳輸帶寬,在中國(guó)電信武清與潤(rùn)澤機(jī)房之間采用華為公司傳輸設(shè)備,通過(guò)多次環(huán)回構(gòu)建了大帶寬互聯(lián)的智算驗(yàn)證網(wǎng),距離達(dá)到 120km。

  針對(duì)數(shù)據(jù)傳輸?shù)母呖煽繂?wèn)題,中國(guó)電信完成了鏈路誤碼、波長(zhǎng)故障、光纖故障等異常測(cè)試試驗(yàn),結(jié)果表明,一個(gè) 800G 業(yè)務(wù)波中斷會(huì)導(dǎo)致超 40% 的算效降低,而百毫秒級(jí)以上光纖故障會(huì)導(dǎo)致算效大幅下降甚至訓(xùn)練中斷。IT之家從官方獲悉,采用 WSON 重路由恢復(fù)技術(shù),此次在兩點(diǎn)間將重路由恢復(fù)時(shí)間控制在 50ms 以內(nèi),可保證分布式智算業(yè)務(wù)的高可靠互聯(lián),最大程度釋放算效。

  針對(duì)傳輸鏈路的高效率問(wèn)題,中國(guó)電信提出分鐘級(jí)波長(zhǎng)動(dòng)態(tài)拆建解決方案來(lái)實(shí)現(xiàn)算與網(wǎng)的協(xié)同分時(shí)復(fù)用,有效提升網(wǎng)絡(luò)資源利用率。此次驗(yàn)證為跨地域、跨層級(jí)、跨主體高可靠的算力協(xié)同調(diào)度奠定基礎(chǔ)。