近日,以“智驅網(wǎng)絡(luò ) 芯動(dòng)未來(lái)”為主題的2024 DPU&AI Networking創(chuàng )新大會(huì )在北京舉辦。大會(huì )表彰了在DPU與AI網(wǎng)絡(luò )技術(shù)創(chuàng )新及實(shí)踐應用中取得卓越成就的單位與項目,天翼云科技有限公司榮膺創(chuàng )新引擎獎、《紫金DPU算力卸載與網(wǎng)絡(luò )加速應用》榮獲實(shí)踐先鋒獎,技術(shù)創(chuàng )新實(shí)力以及應用實(shí)踐成果再獲行業(yè)認可。AI算網(wǎng)技術(shù)論壇上,天翼云科技有限公司資深研發(fā)專(zhuān)家樊小平發(fā)表演講,分享了天翼云在高性能智算網(wǎng)絡(luò )方面的技術(shù)創(chuàng )新。
“創(chuàng )新引擎獎”頒獎儀式 “實(shí)踐先鋒獎”頒獎儀式
人工智能時(shí)代對智算的需求急劇增長(cháng),也對網(wǎng)絡(luò )提出了前所未有的要求。樊小平表示,建設高性能智算網(wǎng)絡(luò )面臨著(zhù)諸多挑戰。在終端層面,RDMA網(wǎng)卡需接入存儲和智算參數面等多個(gè)網(wǎng)絡(luò )平面并面臨業(yè)務(wù)融合加速的問(wèn)題,RDMA網(wǎng)卡若要發(fā)揮極致性能需攻克高性能通信庫難題。在網(wǎng)絡(luò )層面,AI大模型的訓練數據、參數規模龐大且訓練涉及萬(wàn)卡并行,這不僅對網(wǎng)絡(luò )的性能、可靠性、安全性、帶寬等提出了更高的要求,還需要組建大規模的RDMA網(wǎng)絡(luò )來(lái)支撐。
天翼云科技有限公司資深研發(fā)專(zhuān)家 樊小平
為了應對以上挑戰,天翼云積極探索智算網(wǎng)絡(luò )領(lǐng)域新技術(shù),構建的高性能智算網(wǎng)絡(luò ),可擴展至萬(wàn)卡集群,參數面RDMA網(wǎng)絡(luò )采用3層組網(wǎng),以實(shí)現端網(wǎng)協(xié)同、軟硬件結合以及業(yè)務(wù)感知;在RDMA網(wǎng)卡優(yōu)化方面,天翼云基于紫金DPU底座研發(fā)的紫金RDMA網(wǎng)卡,實(shí)現了一卡四用,同時(shí)支持可編程擁塞控制框架;在擁塞控制方面,天翼云推出CTCC擁塞控制算法,可以免去交換機復雜的水線(xiàn)配置,能夠在不同的端側選擇不同的傾向性策略,例如傾向于高吞吐或傾向于低時(shí)延等;在存儲網(wǎng)絡(luò )方面,天翼云三棧融合的協(xié)議棧SF-STACK,支持動(dòng)態(tài)選擇傳輸層協(xié)議,擁有高性能、高可靠?jì)?yōu)勢并屏蔽硬件差異,擴展了可部署的網(wǎng)絡(luò )類(lèi)型。此外,天翼云推出高性能集合通信庫CTCCL,聚焦多路徑負載均衡、故障檢測與恢復,可以?xún)?yōu)化網(wǎng)絡(luò )路徑,保障網(wǎng)絡(luò )可用性。
目前,天翼云高性能智算網(wǎng)絡(luò ),通過(guò)紫金DPU支持VPC/對象存儲(VxLAN)接入、提供并行文件存儲(RoCE)接入、實(shí)現高性能存儲引擎LAVA對接,可減少網(wǎng)絡(luò )平面、降低網(wǎng)絡(luò )復雜度。憑借單卡支持多種網(wǎng)絡(luò )形態(tài)接入、單網(wǎng)絡(luò )承載多種傳輸流量的優(yōu)勢,天翼云高性能智算網(wǎng)絡(luò )在助力智算高性能存儲方面已取得顯著(zhù)成效,能夠幫助企業(yè)有效降低成本、提升效率。
隨著(zhù)各行業(yè)上云用數不斷深入推進(jìn),網(wǎng)絡(luò )與算力的相互協(xié)同將進(jìn)一步促進(jìn)數字經(jīng)濟蓬勃發(fā)展。天翼云將堅持科技創(chuàng )新,探索全新智算網(wǎng)絡(luò )解決方案,為千行百業(yè)的數智發(fā)展注入強勁動(dòng)能。
關(guān)鍵詞: