當(dāng)前AI超大模型的參數(shù)已達(dá)千億甚至萬億級別,組網(wǎng)規(guī)模的大幅增長,導(dǎo)致網(wǎng)絡(luò)管理更加復(fù)雜,擁塞控制、負(fù)載均衡的難度增加等問題,為智算中心發(fā)展帶來嚴(yán)峻挑戰(zhàn)。
在AI大模型訓(xùn)練場景下,機(jī)內(nèi)與機(jī)外的集合通信操作產(chǎn)生大量通信數(shù)據(jù)。服務(wù)器內(nèi)GPU要求支持高速互聯(lián)協(xié)議,機(jī)間GPU的高速互聯(lián)對網(wǎng)絡(luò)的單端口帶寬、節(jié)點(diǎn)間的可用鏈路數(shù)量,及網(wǎng)絡(luò)總帶寬提出了更高需求。
AI大模型訓(xùn)練中集群規(guī)模更大,進(jìn)一步增大配置的復(fù)雜度,如何實(shí)現(xiàn)多臺并行部署配置、自動選擇擁塞控制機(jī)制相關(guān)參數(shù),以及根據(jù)網(wǎng)卡類型與業(yè)務(wù)類型選擇相關(guān)配置等自動化部署,是智算中心發(fā)展面臨的又一大挑戰(zhàn)。
智算中心的建設(shè)往往側(cè)重于前期投資,忽視運(yùn)營模式的可持續(xù)性。高效的維保服務(wù)也是對智算中心可持續(xù)運(yùn)行的保障,智算中的運(yùn)營與維保是目前亟待解決的問題。