ICC訊 超節(jié)點技術(SuperPod)是一種通過高帶寬、低時延互連技術,將大量 GPU芯片整合為統(tǒng)一超級計算單元的技術架構。它突破了傳統(tǒng)單服務器架構限制,將算力單元的概念擴展到了機柜,甚至跨機柜層面。
在 2025 世界人工智能大會(WAIC)期間,上海儀電聯合曦智科技、壁仞科技、中興通訊,正式發(fā)布國內首個光互連光交換 GPU 超節(jié)點 —— 光躍 LightSphere X。據介紹,該超節(jié)點基于曦智科技全球首創(chuàng)的分布式光交換技術,采用硅光技術的光互連光交換芯片、壁仞科技自主原創(chuàng)架構的大算力通用 GPU 液冷模組及全新載板互連方案,搭載中興通訊高性能 AI 國產服務器及儀電智算云平臺軟件,構建起高帶寬、低延遲、靈活可擴展的自主可控智算集群新范式,即將于上海儀電智算中心落地應用。
在 2025 WAIC 曦智科技光子網絡成果媒體分享會上,曦智科技創(chuàng)始人、首席執(zhí)行官沈亦晨博士向媒體詳細介紹了該公司的光互連和光交換技術,也讓記者們對光躍 LightSphere X 背后的技術原理有了更深層次的理解。
光互連已成超節(jié)點必選項
目前業(yè)界有兩種常見的超節(jié)點方案:一種是通過提升單機柜功耗來部署更多GPU,但受限于數據中心單機柜的功耗天花板,單機柜GPU密度提升存在瓶頸。另外一種則是采用光互連技術,通過增加機柜數量構建超節(jié)點,突破傳統(tǒng)互連方式下超節(jié)點的物理限制。相比銅纜,光纜的遠距離傳輸優(yōu)勢可實現交付與機柜解耦。
盡管光互連技術優(yōu)勢明顯,但在實際應用中仍面臨功耗、成本和可靠性的挑戰(zhàn)。為此,業(yè)界正在向更高集成度的光學產品演進。首先是可插拔光模塊,它的問題是光電轉換芯片往往會離GPU距離比較遠,信號完整性、損耗與延遲都會成為挑戰(zhàn)。而超節(jié)點需要我們提升單通道互連帶寬,還要提升通道的密度和數量,這就催生新的光電融合技術——近封裝光學。它將光電轉換芯片從交換機下放到 GPU 板卡后,傳輸距離從 1 米縮短至 10 厘米,互連密度提高 2-3 倍,還可去除 DSP 芯片,大幅減少 GPU 間的通訊延遲。近封裝光學是目前已批量落地的互連方案。
下一階段的核心技術是共封裝光學(Co-Packaged Optics,CPO)。CPO 是一種將光引擎與計算或交換芯片通過先進封裝技術集成在同一基板上的光電融合技術。傳統(tǒng)光模塊通過銅線與芯片連接,存在路徑長、損耗大的問題;CPO 將光引擎與主芯片共封裝后,電信號傳輸距離從厘米級縮短至毫米級,可大幅減少信號損耗與延遲。
WAIC 2025 期間,曦智科技聯合燧原科技推出國內首款 xPU-CPO 光電共封裝原型系統(tǒng)。該系統(tǒng)通過將光學引擎與計算芯片(xPU)在基板上實現光電共封裝,縮短了電芯片與光芯片的傳輸距離。與傳統(tǒng)可插拔光學方案相比,其顯著提升了信號完整性,降低了損耗和延遲,同時大幅降低系統(tǒng)功耗,有效提高光電轉換的穩(wěn)定性。
國內首款 xPU-CPO 光電共封裝原型系統(tǒng),圖源:曦智科技
沈亦晨博士表示,該光電共封裝原型系統(tǒng)是全球范圍內首次實現的相關技術 demo。在這個 demo 中,GPU 芯片通過短距 Serdes(1 毫米),直接以共封裝方式在 GPU 上完成電信號到光信號的轉換并直出。作為國內首次采用 CPO 技術實現 GPU 直接出光的成功案例,該項目驗證了 xPU-CPO 光電共封裝技術的可行性與技術方向,同時為中國人工智能基礎設施建設與先進光學封裝產業(yè)突破奠定了關鍵技術錨點。
他進一步介紹:“最終光互連方式應該是光芯片和電芯片在同一顆芯片,我們叫3D共封裝方案。通過這種方式,可以比現在互連方式再提高1-2個數量級互連帶寬。我們的目標是通過近封裝、共封裝、3D共封裝的方式將單芯片帶寬提升至 2000GB/s。同時,通過采用光互連取代電互連,將超節(jié)點單節(jié)點內的 GPU 數量從 8 顆提升至 500 顆。兩者疊加后,超節(jié)點的總帶寬可比現階段的單機 8 卡提高 3 個數量級?!?
用光交換替代電交換
WAIC 2025 上,曦智科技與沐曦合作的光互連電交換超節(jié)點方案首次公開亮相。該方案采用線性直驅光互連技術,具備低延時、高帶寬、低功耗特性,支持長距離傳輸,突破跨機柜連接限制,可實現 8 臺標準服務器共 64 張 xPU 卡的高速互連,為大模型訓練及推理提供更靈活、高效的并行策略支持,從而提升集群整體性能。這也是曦智科技重點落地的技術路線之一。
另一個技術路線便是光躍 LightSphere X 采用的光互連光交換。沈亦晨博士比喻道:“電交換就像一輛輛小汽車,每個信號都能在電交換機上選擇向左或向右傳輸。但在這種模式下,整個交換容量和速率取決于電交換芯片的運算能力,就像受限于紅綠燈的處理能力,在大型超節(jié)點網絡中容易造成堵塞。此外,不同 GPU 遵循不同協議,每款 GPU 都需定制專用交換芯片以適配互連協議,且電交換芯片依賴先進工藝,這正是目前國內面臨的技術困境?!?
通過用光交換替代電交換,信號傳輸模式實現了從 “公路” 到 “高速鐵路” 的升級。為此,曦智科技發(fā)布了全球首款基于硅光技術的分布式光交換芯片,這也是光躍 LightSphere X 的底層核心技術之一,相關研究論文已被國際通信網絡領域頂級會議 SIGCOMM 2025 收錄。
關于分布式光交換的優(yōu)勢,沈亦晨博士介紹:“在單位互連成本上,由于無需電交換機,直接通過光交換模組實現交換,成本可降至英偉達 NVL72 系統(tǒng)的 31%,且每個 GPU 的使用效率提升 3.37 倍;該技術不受協議限制,所有硅光芯片均可在國內自主生產,擺脫對先進制程的依賴;在冗余機制上,故障 GPU 可在毫秒級時間內切換至正常 GPU,大幅降低冗余帶來的成本增加。”
結語
當光技術將超節(jié)點單節(jié)點內的 GPU 互連規(guī)模從 8 顆拓展至 500 顆,將總帶寬提升數個數量級時,這背后不僅是從 “公路” 到 “高速鐵路” 的傳輸革命,更是中國在智算基礎設施核心技術領域實現自主突破的重要標志。這些突破不僅為大模型訓練與推理注入靈活高效的算力協同能力,更在成本控制、資源利用率與供應鏈安全上構建起獨特優(yōu)勢,為人工智能產業(yè)的規(guī)?;l(fā)展鋪就了更堅實的光互連 “高速路”,也預示著一個以光為核、高效協同的超節(jié)點新時代正加速到來。
新聞來源:電子發(fā)燒友網