本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

GPU集羣怎麼連?談談熱門的超節點

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

如果您希望可以時常見面,歡迎標星收藏哦~人工智能(AI)的浪潮正以前所未有的速度重塑各行各業,其背後離不開海量算力的支撐。當AI模型參數從億級躍升至萬億級,傳統服務器已難以滿足日益增長的算力需求與效率要求。爲了打破這個瓶頸,一箇全新的概念應運而生——超節點 (Super Node)。不止於“大”:什麼是超節點服務器?簡單來說,超節點服務器就是大量高速計算芯片的高效統一結構,面對AI算力大潮的最優解。它並非計算硬件的簡單堆砌,而是將海量的計算單元(CPU/GPU/TPU等)以前所未有的密度和效率整合在一起,專門爲應對人工智能任務帶來的龐大算力需求而生。AI算力需求大幅增長,帶動AI智算中心需求增長來源:麥肯錫傳統AI服務器雖然也集成了CPU、GPU等部件,但當AI模型參數動輒千億、訓練數據浩如煙海時,單個GPU的顯存和算力就如同杯水車薪。模型並行(將一箇大模型拆分給多箇GPU協同處理)成爲必然選擇。但問題來了:參與模型並行的服務器之間需要進行海量、高速的數據交換,服務器間的以太網/InfiniBand網絡帶寬不足,往往成爲“信息高速公路”上的堵點。AI超節點的核心使命,正是要解決這個問題。它的顯著特徵在於:1.極致的計算密度:在有限的空間內塞入儘可能多的算力和顯存容量2.強大的內部互聯:採用NVLink等高速傳輸技術,讓節點內的GPU之間能夠“融爲一體”,以最快的速度互相通信。3.爲AI負載深度優化:從硬件到軟件,都爲發揮AI訓練和推理的最佳性能而設計。超節點的“進化史”:從密度到智能超節點的概念並非憑空出現。早期,數據中心就在追求更高的服務器密度以節省成本,例如刀片服務器和整機櫃服務器(谷歌在1999年就定製了“軟木板服務器”,堪稱早期整機櫃的雛形)。但這些早期嘗試主要關注的是資源池化和空間效率,與今天的超節點在設計理念上有本質區別。1999年, Google定製的"corkboard server"可能是互聯網行業最早的整機櫃服務器。來源:X @Google Cloud真正的轉折點在於GPU的崛起。最初爲遊戲圖形渲染而生的GPU,其強大的並行計算能力被發現是通用計算(GPGPU)的利器,尤其契合AI算法的需求。當Transformer這樣的大型神經網絡模型橫空出世,對算力和顯存的需求呈爆炸式增長時,單個GPU甚至單個服務器都難以招架。這時,不僅需要GPU內部的強大算力,更需要GPU之間、服務器之間的超高速互聯來降低並行計算的開銷,將大量GPU融爲一體,共同承擔訓練和推理任務。於是,像NVIDIA的NVLink這樣的“內部高速專線”技術應運而生,它直接在GPU之間搭建起超寬車道。基於此,NVIDIA的DGX/HGX系列產品,將多顆GPU、CPU、高速內存、NVLink/NVSwitch等高度集成在一箇優化設計的機箱內,這便可以看作一箇典型的8卡“超節點”單元。英偉達DGX H100系統內,8張GPU能通過NVSwitch兩兩互相通信來源:英偉達超節點的“殺手鐧”:爲什麼它是AI時代的必然選擇?AI大模型的發展遵循着規模定律(Scaling Law):更大的模型規模、更多的訓練數據,直接帶來更強的智能和性能。這意味着,對算力和顯存的需求將持續指數級增長。同時,處理更長的信息序列(Sequence Length)也是AI提升記憶和處理複雜能力的關鍵,這同樣會急劇增加對算力,特別是顯存的需求。訓練模型需要的算力不斷增長來源:2025斯坦福AI報告長序列帶來的準確率收益以及顯存需求來源:Cerebras Systems然而,提升集羣算力面臨幾大障礙:1.“內存牆”:芯片通信速度的增長跟不上芯片算力的增長,GPU核心沒有足夠的數據用於計算就只能幹等着,這就是“內存牆”問題。有時新一代芯片的實際有效算力(HFU, Hardware FLOPS Utilization)甚至因爲數據喂不飽而不如上一代。2.“規模牆”:通過簡單堆疊服務器(Scale out)來擴大集羣規模,當集羣達到一定程度後,全局批處理大小(GBS)不能無限增加,服務器間的通信開銷會抵消算力增加的收益,導致硬件有效算力不升反降。3.“通信牆”:大模型並行(如張量並行或MoE模型的專家並行)會在GPU間產生巨量的通信,這部分通信很難與計算過程並行處理(簡單來說就是讓計算、通信任務同時進行,節省時間)。如果使用服務器間的低速網絡通信,帶寬瓶頸會嚴重拖累效率。爲了突破這些瓶頸,業界將目光投向了“縱向擴展”(Scale-Up),致力於構建更大的超大帶寬域 (HBD,High Bandwidth Domain)。在這個網絡內的GPU,彼此間的通信帶寬遠超普通網絡。當AI模型需要多箇GPU協同工作時(即模型並行),如果這些GPU都在同一個HBD內,它們就能像一箇配合默契的團隊一樣高效溝通,大大減少數據傳輸的延遲。目前,典型的HBD通常侷限在單臺8GPU服務器內。但隨着模型越來越大、序列越來越長,這種規模的HBD也開始捉襟見肘。因此,構建擁有更多GPU的、更大的HBD,即“超節點”,成爲了提升AI集羣整體戰鬥力的關鍵。超節點的優勢,不僅僅是“快”:更優的部署、供電與冷卻方案1.更優的部署與運維效率 -> 成本節約:供電:傳統服務器各自配冗餘電源,資源利用率不高。超節點將電源集中管理,用更少的冗餘部件覆蓋整個機櫃,還能用上效率更高的大功率電源模塊。散熱:高密度排列允許使用大型風扇牆或先進液冷系統,對整個機櫃進行高效散熱。大風扇比小風扇在同等風量下更節能。管理:更爲先進的高集成度、模塊化設計降低了運維難度。2.更低的能耗與更高的能效 -> 運營成本降低:雖然超節點是“耗電巨獸”,發熱量驚人,但其PUE(數據中心總能耗/IT設備能耗,越接近1越好)反而可能更低。奧祕在於其不得不採用的液體冷卻技術。液體的高傳熱效率使液冷技術遠勝傳統風冷,儘管初期投資較高,但長期運營的能效優勢顯著。對於數據中心這類重資產投資,更低的PUE意味着更低的運營成本和更高的投資回報率。左側:單個服務器使用的小風扇右側:超節點的大風扇牆來源:HP、2CRSI左側:單節點服務器需要多箇小電源模組右側:超節點的集成式大功率電源模組來源:海韻、臺達前進路上的“三座大山”:超節點面臨的技術挑戰儘管超節點威力無窮,但要駕馭這頭“算力巨獸”,還需克服幾大技術挑戰:1.供電系統:如何餵飽“吞電獸”?傳統服務器機櫃功耗通常在幾千瓦,而AI超節點機櫃功耗可達100千瓦甚至更高!單個包含2CPU+4GPU的AI機架的功耗可達相同體積傳統服務器機架的數倍乃至數十倍。如此巨大的功耗,對供電系統提出了嚴峻考驗。我們知道功率 P=UI。要提升功率,要麼升電壓,要麼增電流。但電流過大會導致線材發熱嚴重(Q ∝ I2R),甚至引發安全問題。因此,提升輸入電壓(例如從傳統的48V向400/800V甚至更高電壓演進)和優化配電架構成爲必然。電力成本佔數據中心運營成本的30-50%,超節點的出現只會增加這一比重。因此,任何能夠提升供電效率、減少損耗的技術,都具有巨大的商業價值。2.冷卻系統:給“發燒”的芯片降溫芯片功率密度持續攀升,當單芯片TDP(熱設計功耗)超過數百瓦,甚至上千瓦時,傳統空氣冷卻已獨木難支。風冷在應對單機櫃30kW以上高熱密度時就已捉襟見肘,而超節點機櫃奔着100kW+去了。液體冷卻(液冷)因其卓越的散熱效率,成爲下一代超節點的標配。無論是冷板式液冷還是浸沒式液冷,都能輕鬆應對超高熱密度。高效的冷卻不僅能保證芯片不因過熱而降頻(性能下降),還能延長硬件壽命,降低故障率。液冷技術雖然初始投資不菲,但其帶來的PUE改善和對更高功率密度的支持,使其成爲未來數據中心的主流。3.網絡系統:構建暢通無阻的“數據動脈”在超節點內部,GPU間能通過NVLink等技術高速互聯,但互聯的物理介質也需權衡:銅纜便宜、功耗低,但傳輸距離受限;光纜成本高、功耗稍大。而在超節點之間,以及超節點與存儲、外部網絡之間,依然需要高速、低延遲的互聯技術。InfiniBand和高速以太網是目前主流的選擇。如何設計高效的集羣網絡拓撲,避免通信瓶頸,是一門複雜的藝術。羣雄逐鹿:超節點技術現狀主流技術趨勢概覽:供電:在機櫃間,技術趨勢是將服務器電源集中到機櫃級,採用更高效率的集中供電單元,減少冗餘,降低成本。在機櫃內部,目前的超節點系統(如GB200 NVL72)使用48V直流母線槽(Busbar)取代傳統的12V供電。更高的電壓能減少轉換損耗,同時簡化設計。對供電系統的功耗、效率、溫度、備電狀態等參數進行精細化監控和管理也是重要趨勢。冷卻:直觸液冷(Direct Liquid Cooling, DLC),特別是冷板式液冷,是超高功率密度AI超節點使用的主流技術。它將冷卻液直接送到CPU、GPU等發熱大戶,散熱效率遠超風冷。後門熱交換器(RDHx)作爲風冷數據中心向液冷方案轉型的過渡方案,也有較多應用。節點間網絡互聯:InfiniBand憑藉其低延遲、高帶寬特性,又背靠NVIDIA的深厚軟硬件技術壁壘,長期是AI領域通信方案的首選。以RoCE(RDMA over Converged Ethernet)爲代表的高速以太網憑藉其廣泛的生態系統和不斷提升的性能,也是AI領域的重要選擇。巨頭們的“超節點答卷”:英偉達 GB200 NVL72:行業風向標在一箇液冷機櫃內,GB200 NVL72通過NVLink將36個Grace CPU和72個Blackwell GPU緊密集成,形成一箇邏輯上的“巨型GPU”,擁有高達130TB/s的GPU間總帶寬和海量統一顯存。NVIDIA憑藉其強大的硬件和CUDA生態,幾乎定義了AI超節點的遊戲規則。GB200 NVL72不僅是技術的集大成者,更是市場風向標。其極高的集成度和計算密度,以及在能效上的突破,使其成爲構建頂級AI基礎設施的首選。英偉達 GB200 NVL72來源:英偉達華爲 CloudMatrix 384:“大力出奇蹟”與自主可控CM384由384個昇騰910C 芯片構成,橫跨16個機櫃(12個計算櫃,4個網絡櫃),採用全光互連的All-to-All網絡。CloudMatrix 384代表了在當前地緣政治背景下,追求算力自主可控的戰略選擇。其設計思路是在單芯片性能可能存在差距時,通過“大力出奇蹟”式的芯片規模,配合先進的系統級互聯,來實現具有國際競爭力的整體系統性能。當然,“大力出奇蹟”也有代價,就是整個系統的功耗遠高於GB200 NVL72。華爲 CloudMatrix 384來源:華爲決勝未來:超節點的技術演進方向超節點的技術仍在飛速發展,以下幾個方向預示着未來的變革,也孕育着新的投資機遇:1.直流高壓輸電 (HVDC):爲數據中心“心臟”注入強勁動力數據中心內部供電正從傳統交流(AC)向400V/800V甚至更高電壓的直流(DC)轉變。市電以高壓交流電形式引入數據中心,需經變壓器降壓至適合使用的低壓。傳統UPS系統需多次進行AC-DC-AC轉換,而HVDC方案通過高壓輸電省去一次交直流轉換,市電經AC/DC整流直接輸出240V直流電,減少轉換損耗,顯著提升供電效率,直接降低電力成本。2.下一代液冷方案:與熱量的終極較量隨着芯片功耗密度不斷刷新上限,對冷卻技術的要求也水漲船高。除了主流的冷板式液冷,更前沿的方案正在湧現:微流控冷卻:在芯片表面蝕刻微通道,讓冷卻液直接流過熱源,實現極致的散熱效率和溫控精度。挑戰在於製造成本和微通道的可靠性。相變液冷:利用冷卻液在受熱時從液態變爲氣態吸收大量潛熱的原理散熱。包括兩相浸沒式和直接到芯片的兩相系統。傳熱係數極高,但系統管理複雜。浸沒式液冷:將整個服務器或發熱部件完全浸泡在不導電的冷卻液中。分爲單相(液體不相變)和兩相(液體相變)兩種。散熱能力極強,能支持高密度節點部署,還能起到防塵防溼的作用。缺點在於浸沒式冷卻方案使用的冷卻液較爲昂貴,設施改造投入大,並且維護流程較爲複雜。HVDC供電系統示意圖來源:NTT Group浸沒式液冷示意圖來源:Green Revolution Cooling3. CPO光互聯 (Co-Packaged Optics):光聯萬物,突破I/O瓶頸隨着芯片算力飆升,芯片與芯片之間、芯片與網絡之間的數據傳輸速率(I/O)成爲新的瓶頸。CPO技術將光模塊儘可能地靠近(甚至集成到)CPU/GPU/交換芯片的封裝內部,用光互連取代部分電互連。CPO能提供超高的帶寬密度、更低的I/O功耗和更短的延遲。這不僅能提升現有系統性能,更有可能催生全新的系統架構,如資源解耦(計算、內存、存儲資源池化並通過高速光路互聯)。儘管CPO旨在降低I/O功耗,但光學組件本身也會發熱,並且有着敏感的工作溫度要求。將它們放置在已經非常熱的計算芯片附近,會產生複雜的熱管理挑戰。Spectrum-X/Quantum-X交換機芯片來源:英偉達結語超節點不僅僅是一項技術革新,更是AI時代驅動算力飛躍的核心引擎。它不僅僅是更大、更強的服務器,更是一系列尖端技術(高端芯片、高速互聯、先進製冷、高效供電)的集大成者,代表了AI數據中心架構的未來發展方向。作爲超節點領域的探索者,魔形智能憑藉深厚的技術積累,爲客戶打造領先的AI算力基礎設施。我們致力於與業界夥伴共同推動超節點技術的創新與應用,賦能千行百業的智能化轉型。半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4039期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-09 05:22am (UTC +8)
栏目列表