近日,中國電信云網(wǎng)融合工作取得新突破。中國電信集團公司統(tǒng)一組織中國電信北京公司、中國電信研究院,在現(xiàn)網(wǎng)完成業(yè)內(nèi)首例智算長距無損互聯(lián)技術(shù)驗證,分布式訓(xùn)練性能達到集中式單智算中心訓(xùn)練性能的90%以上,證實了分布式無損智算網(wǎng)技術(shù)方向的可行性,充分發(fā)揮出中國電信云網(wǎng)融合的優(yōu)勢。
大模型的參數(shù)規(guī)模每18個月提升10倍,驅(qū)動智算中心建設(shè)規(guī)模從萬卡,邁入十萬乃至百萬卡,單體數(shù)據(jù)中心的算力、空間、供電等資源難以滿足需求。中國電信一直走在智算基礎(chǔ)設(shè)施建設(shè)的前列,集團云網(wǎng)發(fā)展部在業(yè)界率先提出通過長距無損智算網(wǎng)構(gòu)建分布式智算集群的創(chuàng)新方向,并將其納入到科創(chuàng)重點攻關(guān)課題。而當(dāng)前業(yè)內(nèi)大模型訓(xùn)練網(wǎng)絡(luò)最遠(yuǎn)無損傳輸距離不超過2公里,長距離無損傳輸一直是困擾業(yè)界的難題。
中國電信成立聯(lián)合項目攻關(guān)組,聚焦研究長距無損智算網(wǎng)絡(luò)技術(shù)。經(jīng)過近一年的攻關(guān),成功解決了超百公里無損智算網(wǎng)難題,智算DCN網(wǎng)絡(luò)由DC內(nèi)走向廣域網(wǎng),將物理上分散的智算資源整合成一個智算集群。聯(lián)合項目組嚴(yán)謹(jǐn)論證,扎實推進,于2023年8月份完成分布式無損智算網(wǎng)方案設(shè)計,同年10月份開始基于云網(wǎng)融合大科創(chuàng)裝置持續(xù)開展長距無損交換機技術(shù)驗證,2024年2月份在北京電信現(xiàn)網(wǎng)完成800G超高速波分技術(shù)驗證。通過不斷完善和優(yōu)化,近日在實驗室完成萬億/十萬億級參數(shù)大模型分布式訓(xùn)練仿真驗證,并在北京電信武清、永豐、瀛海三地IDC機房完成數(shù)百億參數(shù)經(jīng)典大模型的分布式訓(xùn)練任務(wù),這將為京津冀等算力協(xié)同調(diào)度奠定基礎(chǔ),促進數(shù)字經(jīng)濟與實體經(jīng)濟的深入融合。
未來,中國電信將繼續(xù)面向更大規(guī)模、更長距離的分布式智算網(wǎng)發(fā)起攻關(guān),走出一條具備中國電信特色的新型智算基礎(chǔ)設(shè)施發(fā)展道路,賦能千行百業(yè)智能化升級。