ICC訊 近日,中國移動(dòng)研究院公布2025年超節(jié)點(diǎn)試驗(yàn)裝置采購項(xiàng)目結(jié)果,華為技術(shù)有限公司成唯一中標(biāo)候選人,不含稅投標(biāo)報(bào)價(jià)134617826.25元,擬中標(biāo)份額100%。本次項(xiàng)目計(jì)劃采購超節(jié)點(diǎn)試驗(yàn)裝置1套(含超節(jié)點(diǎn)智算模塊(含計(jì)算及配套網(wǎng)絡(luò)等)48套、超節(jié)點(diǎn)存儲(chǔ)模塊1套)。
近年來,各種GPU和TPU/NPU/XPU/ASIC等算力芯片都需要組成大規(guī)模的高帶寬域,即超節(jié)點(diǎn)來應(yīng)對(duì)大模型應(yīng)用的需求,特別是GPU scale-up網(wǎng)絡(luò)需要大節(jié)點(diǎn)數(shù)、高帶寬、低延遲、低成本這四個(gè)互相牽制的要求。
當(dāng)前實(shí)現(xiàn)大規(guī)模超節(jié)點(diǎn)的技術(shù)路線主要有三種:全銅纜互聯(lián)、銅光混合互聯(lián)和全光互聯(lián)。不同方案在部署規(guī)模、時(shí)延、成本及工程可行性上存在顯著差異:
全銅纜互聯(lián)僅適用于單柜或相鄰雙柜部署,其物理距離限制(≤3m)與單柜內(nèi)高密度GPU引發(fā)的供電、散熱及線纜密度、機(jī)房承重等問題,導(dǎo)致工程擴(kuò)展性和可維護(hù)性的巨大挑戰(zhàn)。
銅光混合互聯(lián)雖支持多柜擴(kuò)展,但依賴“柜內(nèi)銅纜+柜間光互聯(lián)”兩級(jí)交換架構(gòu),引入更高時(shí)延與更加復(fù)雜的scale up協(xié)議能力要求,并且兩層交換機(jī)顯著增加系統(tǒng)成本。
全光互聯(lián)通過每GPU直連光接口與一層HighRadix交換機(jī)互聯(lián),當(dāng)前HighRadix交換機(jī)可支持512端口200Gbps,可實(shí)現(xiàn)一層交換機(jī)512卡超節(jié)點(diǎn)。全光互聯(lián)可以實(shí)現(xiàn)較低時(shí)延和靈活的部署規(guī)模;其核心挑戰(zhàn)在于光器件成本與可靠性,因此要實(shí)現(xiàn)大規(guī)模全光互聯(lián)超節(jié)點(diǎn)仍需針對(duì)這些問題完成技術(shù)與產(chǎn)業(yè)突破。
英偉達(dá)NVL72 vs 華為CM384
在超節(jié)點(diǎn)方面,華為推出了CloudMatrix 384超節(jié)點(diǎn)產(chǎn)品,依靠華為強(qiáng)大的光互聯(lián)能力,將384塊昇騰910C芯片組合在一起,并通過6912個(gè)400G LPO光模塊和3168根光纖構(gòu)建高速互聯(lián)總線,實(shí)現(xiàn)了269TB/s的總帶寬。