應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

騰訊云正在自研全新高性能傳輸協(xié)議 HARP:支持 10000 + 節(jié)點(diǎn)大規(guī)模組網(wǎng)

2022-12-22 09:53 IT之家

導(dǎo)讀:常見的 TCP / IP 協(xié)議、RoCE 協(xié)議之外,騰訊云正在自研一套全新的高性能傳輸協(xié)議 HARP。

12 月 21 日消息,在常見的 TCP / IP 協(xié)議、RoCE 協(xié)議之外,騰訊云正在自研一套全新的高性能傳輸協(xié)議 HARP。借助這套協(xié)議,數(shù)據(jù)中心內(nèi)部可以輕松支持 10000 + 節(jié)點(diǎn)的大規(guī)模組網(wǎng),以及微秒級“復(fù)活”故障網(wǎng)絡(luò),實(shí)現(xiàn) 0 斷鏈。

HARP 是一個(gè)完全自研的數(shù)據(jù)中心高性能傳輸協(xié)議。在保證端到端數(shù)據(jù)報(bào)文可靠傳輸?shù)耐瑫r(shí),HARP 可以為上層應(yīng)用提供高可用、高可擴(kuò)展、高性能的網(wǎng)絡(luò)傳輸服務(wù)。

市面上已經(jīng)有各種各樣的網(wǎng)絡(luò)傳輸協(xié)議,騰訊云為什么從 0 到 1 開始自研新的傳輸協(xié)議呢?主要原因是,隨著應(yīng)用規(guī)模和需求的不斷發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)的可靠性和性能面臨著巨大的挑戰(zhàn),之前的協(xié)議漸漸無法滿足現(xiàn)有業(yè)務(wù)的發(fā)展。

首先,可靠性上,數(shù)據(jù)中心內(nèi)部的交換機(jī)不可避免地會出現(xiàn)亞健康狀況,這種狀況輕則使得業(yè)務(wù)的響應(yīng)延時(shí)增加,重則導(dǎo)致業(yè)務(wù)超時(shí)斷鏈。其次,性能上,帶寬敏感型應(yīng)用、時(shí)延敏感的應(yīng)用與日俱增,而且數(shù)據(jù)中心應(yīng)用的部署規(guī)模越來越大,集合通信場景下往往會產(chǎn)生大量的并發(fā)的數(shù)據(jù)傳輸,這對現(xiàn)有網(wǎng)絡(luò)傳輸協(xié)議的可擴(kuò)展性提出了更大的要求。

因此,騰訊需要重新設(shè)計(jì)一套新的傳輸協(xié)議,既能滿足上層應(yīng)用對于高可用網(wǎng)絡(luò)傳輸?shù)囊?,又能提供高帶寬、低時(shí)延的數(shù)據(jù)傳輸服務(wù),還能保持在大規(guī)模部署下的網(wǎng)絡(luò)性能。

HARP 主要有三高特性:

“高可用”:通過多路徑并行傳輸及實(shí)時(shí)的鏈路檢測,微秒級切換故障鏈路,使得網(wǎng)絡(luò)發(fā)生故障時(shí)上層業(yè)務(wù)完全無感知,沒有明顯的性能抖動。

“高可擴(kuò)展性”:通過共享連接的設(shè)計(jì)和協(xié)議本身的優(yōu)化,使得大規(guī)模組網(wǎng)狀況下依然維持著極低的硬件資源消耗,輕松支持 1w + 節(jié)點(diǎn)組網(wǎng)下節(jié)點(diǎn)間通信性能無明顯下跌,大大優(yōu)于傳統(tǒng) ROCE 網(wǎng)絡(luò)的組網(wǎng)能力。

“高性能”:自研擁塞控制算法,對網(wǎng)絡(luò)能力無明顯依賴的前提下,實(shí)現(xiàn)各種負(fù)載時(shí)都能獲得極高的傳輸帶寬和穩(wěn)定的時(shí)延(包括平均時(shí)延和長尾時(shí)延)。

技術(shù)上如何實(shí)現(xiàn)的

1、粒度可配置的共享連接,最大支持 10000 + 節(jié)點(diǎn)組網(wǎng)

為了滿足多種業(yè)務(wù)環(huán)境的使用需求(裸金屬,VM,CBS 等)和大規(guī)模組網(wǎng)要求,HARP 支持裸連接、VM 級共享、主機(jī)級共享等粒度的連接模式。通過共享連接,HARP 可以大幅減少連接數(shù)量,降低硬件實(shí)現(xiàn)的資源消耗,實(shí)現(xiàn)高度的可擴(kuò)展性,輕松支持 10000 + 級節(jié)點(diǎn)的大規(guī)模組網(wǎng)。

2、軟硬件事務(wù)分離,提供 200Gbps 最高性能輸出

HARP 采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計(jì),分工明確:硬件負(fù)責(zé)需要高效和可靠傳輸?shù)膱?bào)文級事務(wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用有限的硬件資源。

image.png

最終,HARP 可以支持在 10000 + 節(jié)點(diǎn)的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供 200Gbps 的最高性能輸出,對于 AI 訓(xùn)練、鍵值存儲、分布式大數(shù)據(jù)應(yīng)用等場景具有獨(dú)特價(jià)值。

3、自研擁塞控制算法,讓消息完成時(shí)間中位數(shù)降低 35%

HARP 采用自研的擁塞控制算法 PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時(shí),保證網(wǎng)絡(luò)流的通暢。相較于 TCP,HARP 消息完成時(shí)間的中位數(shù)降低了 35%,同時(shí)保證 99% 數(shù)據(jù)包的網(wǎng)絡(luò)排隊(duì)時(shí)延降低 90%。

4、確定性多路徑傳輸、實(shí)現(xiàn)微秒級路徑切換

騰訊云 HARP 協(xié)議吸收包括 TCP 和 UDP 的優(yōu)勢,通過自研的報(bào)文編號方案追蹤每個(gè)報(bào)文的發(fā)送和接收狀態(tài),HARP 以極低開銷支持亂序接收和選擇性重傳,保證了報(bào)文的可靠傳輸。


同時(shí),HARP 通過確定性多路徑傳輸和微秒級路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。

HARP 在每個(gè)連接內(nèi)采用多路徑傳輸,每條路徑有獨(dú)立的擁塞探測能力?;谧匝袚砣刂扑惴▋?yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP 的路徑管理模塊會根據(jù)路徑的擁塞情況進(jìn)行調(diào)度,快速可靠地檢測到路徑故障,并在 100 微秒時(shí)間內(nèi)重新探測一條新的可用路徑,保證在單個(gè)交換機(jī)故障時(shí)的斷鏈概率為 0。相比起 TCP 遭遇故障的典型重連恢復(fù)時(shí)間(約為 1s),HARP 減少了 99.9%。

IT之家了解到,HARP 最初是面向存儲與高性能計(jì)算的場景而設(shè)計(jì),目前也已經(jīng)落地在騰訊的云硬盤(CBS)與彈性 RDMA(EFI)業(yè)務(wù)中。作為一個(gè)高性能的通信底座,HARP 可以被應(yīng)用于數(shù)據(jù)中心對網(wǎng)絡(luò)性能要求較高的業(yè)務(wù)中,比如 AI 訓(xùn)練、鍵值存儲、分布式大數(shù)據(jù)應(yīng)用等。

當(dāng)前騰訊云的工程師還正在不斷地完善其高性能通信庫,包括使用 Socket、IB Verbs、libfabric、UCX 等通信接口接入 HARP 傳輸協(xié)議,從而不斷擴(kuò)大 HARP 的生態(tài)。