<ruby id="zpo55"></ruby>
  1. <mark id="zpo55"></mark>
    <ruby id="zpo55"><video id="zpo55"></video></ruby>

    <progress id="zpo55"></progress>
    <mark id="zpo55"></mark>
      <strong id="zpo55"></strong>

    1. 聚焦> 正文

      十倍提升大模型通信性能!騰訊云首次完整披露自研星脈高性能計算網(wǎng)絡(luò ) 環(huán)球快消息

      時(shí)間: 2023-06-26 22:48:15 來(lái)源: 搜狐數碼

      AIGC的爆發(fā)除了帶來(lái)算力上的挑戰,對網(wǎng)絡(luò )的要求也達到了前所未有的高度。

      6月26日,騰訊云首次對外完整披露自研星脈高性能計算網(wǎng)絡(luò ):星脈網(wǎng)絡(luò )具備業(yè)界最高的3.2T通信帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,為AI大模型帶來(lái)10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬(wàn)卡的超大計算規模。

      騰訊云副總裁王亞晨表示:“星脈網(wǎng)絡(luò )是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò )服務(wù),將助力算力瓶頸的突破,進(jìn)一步釋放AI潛能,全面提升企業(yè)大模型的訓練效率,在云上加速大模型技術(shù)的迭代升級和落地應用?!?/p>


      (資料圖片僅供參考)

      構建大模型專(zhuān)屬高性能網(wǎng)絡(luò ),提升40%GPU利用率

      AIGC的火爆帶來(lái)AI大模型參數量從億級到萬(wàn)億級的飆升。為支撐海量數據的大規模訓練,大量服務(wù)器通過(guò)高速網(wǎng)絡(luò )組成算力集群,互聯(lián)互通,共同完成訓練任務(wù)。

      大集群不等于大算力,相反,GPU集群越大,產(chǎn)生的額外通信損耗越多。大帶寬、高利用率、信息無(wú)損,是AI大模型時(shí)代網(wǎng)絡(luò )面臨的核心挑戰。

      千億、萬(wàn)億參數規模的大模型,訓練過(guò)程中通信占比最大可達50%,傳統低速網(wǎng)絡(luò )的帶寬遠遠無(wú)法支撐。同時(shí),傳統網(wǎng)絡(luò )協(xié)議容易導致網(wǎng)絡(luò )擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò )丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

      基于全面自研能力,騰訊云在交換機、通信協(xié)議、通信庫以及運營(yíng)系統等方面,進(jìn)行了軟硬一體的升級和創(chuàng )新,率先推出業(yè)界領(lǐng)先的大模型專(zhuān)屬高性能網(wǎng)絡(luò )——星脈網(wǎng)絡(luò )。

      在硬件方面,星脈網(wǎng)絡(luò )基于騰訊的網(wǎng)絡(luò )研發(fā)平臺,采用全自研設備構建互聯(lián)底座,實(shí)現自動(dòng)化部署和配置。

      在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò )協(xié)議,采用先進(jìn)的擁塞控制和管理技術(shù),能夠實(shí)時(shí)監測并調整網(wǎng)絡(luò )擁塞,滿(mǎn)足大量服務(wù)器節點(diǎn)之間的通信需求,確保數據交換流暢、延時(shí)低,實(shí)現高負載下的零丟包,使集群通信效率達90%以上。

      此外,騰訊云還為星脈網(wǎng)絡(luò )設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統實(shí)現了微秒級感知網(wǎng)絡(luò )質(zhì)量。結合動(dòng)態(tài)調度機制合理分配通信通道,可以避免因網(wǎng)絡(luò )問(wèn)題導致的訓練中斷等問(wèn)題,讓通信時(shí)延降低40%。

      網(wǎng)絡(luò )的可用性,也決定了整個(gè)集群的計算穩定性。為確保星脈網(wǎng)絡(luò )的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò )運營(yíng)系統,通過(guò)端網(wǎng)立體化監控與智能定位系統,將端網(wǎng)問(wèn)題自動(dòng)定界分析,讓整體故障的排查時(shí)間由天級降低至分鐘級。同時(shí),大模型訓練系統的整體部署時(shí)間從19天縮減至4.5天,保證基礎配置100%準確。

      歷經(jīng)三代技術(shù)演進(jìn),軟硬一體深耕自研

      星脈網(wǎng)絡(luò )全方位的升級背后,是騰訊數據中心網(wǎng)絡(luò )歷經(jīng)三代技術(shù)演進(jìn)的成果。

      在騰訊發(fā)展初期,數據中心網(wǎng)絡(luò )流量主要由用戶(hù)訪(fǎng)問(wèn)數據中心服務(wù)器的南北向流量構成,網(wǎng)絡(luò )架構以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò )設備,搭建標準化數據中心網(wǎng)絡(luò ),支撐QQ在線(xiàn)人數增長(cháng)超過(guò)1億,服務(wù)器規模增長(cháng)超10萬(wàn)。

      隨著(zhù)大數據和云計算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶(hù)對網(wǎng)絡(luò )產(chǎn)生了虛擬化和隔離的要求。數據中心網(wǎng)絡(luò )架構逐漸演變?yōu)橥瑫r(shí)承載南北向和東西向流量的云網(wǎng)絡(luò )架構,騰訊云構建了全自研網(wǎng)絡(luò )設備與管理系統,打造超大規模數據中心網(wǎng)絡(luò ),服務(wù)器規模近200萬(wàn)臺。

      如今隨著(zhù)AI大模型的出現,騰訊云在國內率先推出高性能計算網(wǎng)絡(luò ),采用東西向、南北向流量的分離架構。構建了獨立的超大帶寬、符合AI訓練流量特征的網(wǎng)絡(luò )架構,并配合自研軟硬件設施,實(shí)現整套系統的自主可控,滿(mǎn)足超強算力對網(wǎng)絡(luò )性能的新需求。

      日前,騰訊云發(fā)布的新一代HCC高性能計算集群,正是基于星脈高性能網(wǎng)絡(luò )打造,可以實(shí)現3.2T超高互聯(lián)帶寬,算力性能較前代提升3倍,為AI大模型訓練構筑可靠的高性能網(wǎng)絡(luò )底座。

      未來(lái),騰訊云還將持續投入基礎技術(shù)的研發(fā),為各行各業(yè)的數智化轉型提供有力的技術(shù)支撐。

      責任編輯:

      關(guān)鍵詞:

      責任編輯:QL0009

      為你推薦

      關(guān)于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

      版權所有 © 2020 跑酷財經(jīng)網(wǎng)

      所載文章、數據僅供參考,使用前務(wù)請仔細閱讀網(wǎng)站聲明。本站不作任何非法律允許范圍內服務(wù)!

      聯(lián)系我們:315 541 185@qq.com

      精品成人精品无码区_欧亚乱色熟女一区二区_91在线精品国产丝袜超清_色欲久久久久综合网
      <ruby id="zpo55"></ruby>
      1. <mark id="zpo55"></mark>
        <ruby id="zpo55"><video id="zpo55"></video></ruby>

        <progress id="zpo55"></progress>
        <mark id="zpo55"></mark>
          <strong id="zpo55"></strong>