· Meta的Zuckerberg(扎克伯格):“在基礎設施上超支數(shù)千億美元的風險,小于被排除在外的風險?!?
· 知名半導體機構Semianalysis 的Dylan Patel透露:“OpenAI和Anthropic目前占據(jù)Nvidia GPU總出貨量三分之一的份額,成為最大終端買家?!?
· 《The NVIDIA Way》一書作者Tae Kim在公開媒體發(fā)文指出:“問世8年的TPU利用率仍達100%,5年前發(fā)布的A100 GPU也已經售罄?!?
· Groq CEO、Google TPU創(chuàng)始人之一Jonathan Ross表示:“在Groq采用1年期攤銷,那些沿用3-5年攤銷期的做法“完全錯了”。芯片不僅涉及資本支出(CapEx)的前期投資,還包括運營支出(OpEx)以及電力、水冷等配套成本。“
當前全球科技與算力大廠都在瘋狂卷AI與算力,以上言論值得關注,智算中心運營正面臨一個巨大的隱藏風險:智算中心GPU的資本支出與折舊問題。
下面是結合當前市場情況,列出的一些國內外主流芯片的更新周期(僅供參考):
但實際運營智算中心是,面臨的問題要比上表呈現(xiàn)出來的數(shù)字復雜得多。
舉個例子,以AI算力云業(yè)務的GPU投資回報周期為例:
一臺搭載8×NVIDIA H100 GPU服務器(成本假設為¥280萬元人民幣),在2023年前期算力緊缺時其租用價格一度高達每卡每小時$4~8美元,若保持高利用率,十多個月即可收回成本。這使得不少運營者初期ROI(投資回報)看起來非??捎^。
然而隨著2024年供給緩解、算力租賃價格下滑,中期租價降至每卡僅$1/小時左右,按100%售出率測算5年總收入約¥450萬,扣除設備與機房等成本(約¥560萬,含服務器購置和5年運維電力等附加成本,五年反而虧損約¥110萬。直線折舊法下前兩年盈利、第三年開始虧損的現(xiàn)象表明:GPU資產的經濟壽命通常小于賬面折舊年限。
為彌補后期虧損,常見做法是在第3年時再投入更新一批更新一代GPU,用新設備盈利來填補舊設備的折舊虧損,進行滾動擴張,但這也潛藏風險(擴大杠桿可能隱藏虧損直至難以為繼)。因此,運營方更傾向于在性能/效率顯著提升的新品出現(xiàn)時盡早更新GPU,保證算力供給具備競爭力,并避免舊卡后期大幅貶值帶來的虧損,但這樣又會帶來新的風險。
GPU的折舊速度比想象得要快
當前一代 GPU 的使用壽命比大多數(shù)人認為的要短,也比公司在攤銷計劃中預估的要短。我們正進入AI周期的下一階段,在這個階段,數(shù)據(jù)中心和能源供應日趨緊張,最重要的指標已經變成每瓦特產出的Token數(shù) (tokens per watt)。
需要關注的是,像Nvidia這樣的芯片廠商已經轉向1年的產品升級周期,這意味著每年你都能獲得比上一代更強大、更節(jié)能的加速器。這與我們歷史上經歷的摩爾定律和芯片發(fā)展完全不同。Jensen (黃仁勛) 指出,從Hopper到Blackwell,將Token成本降低了10倍。
也就是說隨時未來的發(fā)展,GPU的攤銷速度應該比新興云服務商和超大規(guī)模云服務商建模的速度要快得多。在最近一期播客中,Groq的CEO Jonathan Ross,Google TPU 創(chuàng)始人之一就表示,Groq正采用1年期的攤銷(那些采用 3-5 年攤銷期的人完全錯了)。
對于芯片,你不僅有資本支出的前期投資,還有運行該芯片的運營支出 (OpEx),以及相關的電力和水冷成本。超大規(guī)模云服務商對GPU采用3-4年的攤銷周期,而Corewave和一些新興云服務商采用6年的Nvidia GPU折舊周期,但問題來了,如果他們的攤銷周期是2年而不是6年,這些新興云服務商的虧損會大得多,這是整個產業(yè)鏈中另一個令人擔憂的一個重要壓力點。
智算中心運營的最大風險
可能有人可能會說,你仍然看到有人在租用Nvidia H100,那是Nvidia 3年前開始銷售的產品,但這背后有兩個重要原因。
第一,少量大客戶(比如類似OpenAI和Anthropic)將需求推得極高,因為他們向最終用戶提供服務的算力成本遠高于他們向最終用戶收取的價格,但這種模式只有在投資者愿意持續(xù)提供資金的階段才能維持。
第二,更重要一點——盡管H100已經有3年歷史,但它依然有用,因為Nvidia是在 H100和Blackwell之間才轉向1年產品周期的,而這個轉變發(fā)生在2024 年末。在此之前,周期是18-24個月。所以,產品代數(shù)角度來看,相比用年份衡量,這款芯片并不算太老。然而,隨著 Nvidia現(xiàn)在采用1年產品周期,情況發(fā)生了重大變化,如此探測這些芯片的真實攤銷期應該是1-2年。
回到以6年攤銷計算的Coreweave。這意味著,當Nvidia Vera Rubin在2026年末正式推出時,我們的AI推理需求已經大幅提升,智算中心需要持續(xù)運行GPU需要持續(xù)高負荷運行時,必須要建造新數(shù)據(jù)中心才能維持,但這需要時間。
所以,帶來的結果就是,對于想要擴展算力的公司,大部分公司將不得不在現(xiàn)有運行的數(shù)據(jù)中心中用新GPU替換舊GPU,以獲得更多每瓦特Token產出,因為他們的功耗受到限制,這將會在實際上大幅壓縮GPU芯片資產的攤銷周期。
所以,當下延長攤銷周期的問題在于,即使今天利潤看起來比實際更高,但當GPU換代的真實動作發(fā)生時就會面臨虧損的風險。
這也就解釋了微軟這類企業(yè)為什么會選擇和云服務商合作:
因為圍繞看到客戶對算力的需求激增。Microsoft希望維護客戶關系并讓客戶滿意,但對進一步增加資本支出缺乏足夠信心,所以寧愿將部分風險轉移給其他方??蛻舨恢酪膊辉诤鮉icrosoft是否擁有物理基礎設施,當熱潮消退時,Microsoft不必將芯片計為損失,因為新興云服務商已經承擔了這一風險。這對Microsoft而言是雙贏——他們保留了客戶,如果需求被證實是長期可持續(xù)的,他們有充足時間建設自己的數(shù)據(jù)中心并轉回自身基礎設施。
與此同時,在當前所處的狂熱周期中,微軟還可以將芯片過時速度超預期的風險轉移出去。
總之,GPU作為AI時代數(shù)據(jù)中心的核心資產,其折舊和評估需要動態(tài)權衡技術演進和經濟回報。對于高端GPU,3年前后即進入更新窗口,高負載環(huán)境甚至更短;數(shù)據(jù)中心整體資產評估則融合了財務折舊和算力價值視角,既看設備賬面生命周期,也看其在不斷變化的AI市場中的供需價值。
不同區(qū)域由于運營環(huán)境和策略差異,在設備折舊和資產管理上各有側重:比如我國重要強調可控回報和國產替代,北美追求效率領先和靈活財務,東南亞注重成本管控和外部支持。在未來幾年,隨著AI芯片技術的發(fā)展和各地算力需求的成熟,GPU資產的折舊策略和評估方法也將持續(xù)變化,值得算力產業(yè)高度關注。