正在加載數(shù)據(jù)...
        1. 高端制造|生態(tài)環(huán)保|汽車|房地產(chǎn)|家居建材|家電|服裝|時(shí)尚前沿|健康|醫(yī)藥|教育培訓(xùn)|能源化工|文旅

          航旅交運(yùn)|食品飲品|科技|互聯(lián)網(wǎng)|手機(jī)通信|電子|商業(yè)|金融保險(xiǎn)|證券|安防|人工智能|鄉(xiāng)村振興|綜合

        2. 當(dāng)前位置:南方企業(yè)新聞網(wǎng)>要聞> 商訊>正文內(nèi)容
          • 智算中心規(guī)模化交付的六大核心挑戰(zhàn)
          • 2025年08月20日來源:中國IDC圈

          提要:在人工智能浪潮席卷全球的當(dāng)下,智算中心作為支撐大模型訓(xùn)練、推理和各類智能應(yīng)用的“數(shù)字底座”,已從單點(diǎn)試水走向規(guī)模化落地階段。截至2025年,全國已建及在建智算中心超250個(gè),算力總規(guī)模達(dá)280EFLOPS,覆蓋京津冀、長三角、粵港澳等八大樞紐節(jié)點(diǎn)。

          在人工智能浪潮席卷全球的當(dāng)下,智算中心作為支撐大模型訓(xùn)練、推理和各類智能應(yīng)用的“數(shù)字底座”,已從單點(diǎn)試水走向規(guī)模化落地階段。截至2025年,全國已建及在建智算中心超250個(gè),算力總規(guī)模達(dá)280EFLOPS,覆蓋京津冀、長三角、粵港澳等八大樞紐節(jié)點(diǎn)。

          事實(shí)上,智算中心的規(guī)模化交付并非簡單的GPU堆疊,而是一項(xiàng)橫跨項(xiàng)目立項(xiàng)、方案設(shè)計(jì)、資源籌備、施工部署、系統(tǒng)上線到驗(yàn)收交付的復(fù)雜系統(tǒng)工程。其背后不僅是技術(shù)的快速迭代,還伴隨運(yùn)維復(fù)雜性與產(chǎn)業(yè)生態(tài)不成熟等難題。因此,如何“建好”智算中心只是起點(diǎn),“交付即能用、并可持續(xù)運(yùn)營”才是真正的考驗(yàn)。

          本文將從技術(shù)架構(gòu)、工程實(shí)施、能效管理、軟件棧成熟度、產(chǎn)業(yè)協(xié)同和商業(yè)模式六個(gè)維度,系統(tǒng)剖析智算中心規(guī)模化交付的核心挑戰(zhàn)。

          01

          技術(shù)架構(gòu)的復(fù)雜性:異構(gòu)算力與高速互聯(lián)的難題

          1


          智算中心的根基是算力,但與傳統(tǒng)云數(shù)據(jù)中心相比,智算中心的技術(shù)架構(gòu)復(fù)雜度更高,主要體現(xiàn)在兩個(gè)方面:

          在異構(gòu)算力的管理方面,AI算力芯片正處于多元化競爭階段,NVIDIA GPU仍然占據(jù)市場主導(dǎo),國產(chǎn)GPU、NPU、DPU、FPGA也在不斷涌現(xiàn)。不同廠商的芯片在編程接口、驅(qū)動(dòng)優(yōu)化、軟件生態(tài)上差異明顯,這導(dǎo)致算力池化和統(tǒng)一調(diào)度極其困難。

          如何在單一智算中心內(nèi)高效整合不同架構(gòu)芯片?如何避免資源碎片化?如何為上層AI開發(fā)者屏蔽底層異構(gòu)性?這些問題至今沒有完全成熟的解決方案。

          在高速互聯(lián)與集群規(guī)模方面,大模型訓(xùn)練需要上萬卡規(guī)模的并行協(xié)同,這要求極高帶寬、低延遲的網(wǎng)絡(luò)互聯(lián)。目前,Infiniband和高速以太網(wǎng)(如RoCE)是主流選擇,但當(dāng)節(jié)點(diǎn)數(shù)擴(kuò)展到數(shù)千甚至上萬時(shí),網(wǎng)絡(luò)瓶頸、拓?fù)湓O(shè)計(jì)、流量調(diào)度都會(huì)成為“卡脖子”問題。

          例如,訓(xùn)練GPT-4級別的大模型,需要萬卡規(guī)模的GPU集群,其網(wǎng)絡(luò)架構(gòu)復(fù)雜度和工程可靠性要求遠(yuǎn)超傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用場景。技術(shù)架構(gòu)的不確定性,決定了智算中心的規(guī)模化交付并非“復(fù)制粘貼”,而是每一次建設(shè)都需要重新平衡算力供給、互聯(lián)設(shè)計(jì)與軟件適配,導(dǎo)致交付周期和風(fēng)險(xiǎn)不斷上升。

          02

          工程實(shí)施的復(fù)雜性:從機(jī)房到液冷的全棧挑戰(zhàn)

          2


          傳統(tǒng)數(shù)據(jù)中心建設(shè)的核心難題在于供電與散熱,而智算中心面臨的問題則在這一基礎(chǔ)上被進(jìn)一步放大。

          第一,高功率密度帶來的供配電挑戰(zhàn)。一臺高端AI服務(wù)器的功耗可超過10kW,而傳統(tǒng)通用服務(wù)器僅為2-3kW。這意味著同樣的機(jī)柜面積,智算中心的電力需求提升了數(shù)倍。如何保障大規(guī)模供電的穩(wěn)定性,如何規(guī)劃冗余電力路徑,成為規(guī)模化交付的瓶頸。

          第二,液冷系統(tǒng)的復(fù)雜落地。風(fēng)冷已經(jīng)無法滿足超高功耗服務(wù)器的散熱需求,液冷正成為智算中心的標(biāo)配。然而,液冷涉及管道鋪設(shè)、冷卻液循環(huán)、運(yùn)維安全等一系列復(fù)雜問題:冷卻液泄漏如何防范?高濕度環(huán)境下如何保障芯片安全?多廠家設(shè)備如何適配不同液冷方案?這使得智算中心的機(jī)房建設(shè)從傳統(tǒng)的“土建+風(fēng)冷”模式,演進(jìn)為跨學(xué)科的工程系統(tǒng)。

          第三,交付周期與工程協(xié)同。從設(shè)計(jì)到上線,智算中心的交付周期通常長達(dá)12-18個(gè)月。這與AI產(chǎn)業(yè)的快速演進(jìn)存在天然錯(cuò)配:當(dāng)一個(gè)中心交付完成時(shí),可能芯片迭代已經(jīng)更新,架構(gòu)優(yōu)化的需求又會(huì)倒逼改造。這種“交付-過時(shí)”的悖論,是規(guī)模化建設(shè)的一大現(xiàn)實(shí)困境。

          03

          能效與綠色低碳:規(guī)模化背后的可持續(xù)難題

          3


          據(jù)測算,一個(gè)萬卡規(guī)模的AI算力集群,年耗電量可達(dá)數(shù)億度,相當(dāng)于一個(gè)中等城市的居民用電。隨著智算中心數(shù)量的快速增長,能耗和碳排放問題日益凸顯。

          首先,PUE(電能使用效率)的挑戰(zhàn)。盡管通過液冷技術(shù)可以將PUE降低至1.1甚至1.05,但在大規(guī)模集群中保持長期穩(wěn)定仍然困難。一旦制冷系統(tǒng)波動(dòng),可能導(dǎo)致能效惡化,甚至威脅集群運(yùn)行。

          其次,綠色能源供給的不足。“東數(shù)西算”提出要在西部建設(shè)數(shù)據(jù)中心,利用清潔能源。但現(xiàn)實(shí)是,清潔能源供應(yīng)存在波動(dòng)性,輸電半徑受限,導(dǎo)致算力需求與能源供給難以完全匹配。

          再次,能效與性能的平衡問題。算力調(diào)度時(shí)常需要在“滿負(fù)荷性能”與“節(jié)能模式”之間權(quán)衡。如何在保證AI訓(xùn)練高效性的同時(shí),避免無謂的能源浪費(fèi),是規(guī)模化運(yùn)營必須破解的難題。

          04

          軟件棧的成熟度:從AI框架到算力調(diào)度的斷層

          4


          硬件可以通過采購實(shí)現(xiàn)堆疊,但軟件生態(tài)的成熟度,決定了智算中心能否真正“好用”。

          第一,AI框架的適配性不足。主流AI框架(如PyTorch、TensorFlow)對NVIDIA GPU優(yōu)化成熟,但對國產(chǎn)芯片的支持度有限。很多國產(chǎn)GPU廠商需要自己適配深度學(xué)習(xí)算子庫,導(dǎo)致開發(fā)者遷移成本高,使用體驗(yàn)差。

          第二,算力調(diào)度與資源管理體系不完善。傳統(tǒng)Kubernetes在大規(guī)模AI集群中并非完全適用。任務(wù)調(diào)度涉及多維度需求:顯存大小、互聯(lián)拓?fù)洹⒆鳂I(yè)優(yōu)先級、能耗策略等,遠(yuǎn)比傳統(tǒng)云原生調(diào)度復(fù)雜。目前成熟的AI算力調(diào)度系統(tǒng)仍在探索中。

          第三,可觀測性與運(yùn)維工具不足。當(dāng)集群規(guī)模擴(kuò)展到萬卡級別,任何微小故障都可能造成巨大損失。如何實(shí)現(xiàn)對GPU健康度、網(wǎng)絡(luò)拓?fù)洹⑷蝿?wù)運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控和預(yù)測,是智算中心軟件棧亟需補(bǔ)齊的短板。

          05

          產(chǎn)業(yè)協(xié)同的難題:政企關(guān)系與上下游博弈

          5


          智算中心的建設(shè)往往由政府主導(dǎo)、企業(yè)承建、產(chǎn)業(yè)鏈配合完成。這種模式在推動(dòng)算力基礎(chǔ)設(shè)施落地方面有優(yōu)勢,但也帶來協(xié)同困境。

          第一,政策與需求的錯(cuò)位問題。部分城市AI應(yīng)用生態(tài)尚不成熟,算力利用率低,導(dǎo)致大量GPU資源閑置。算力“過剩”與“短缺”并存,成為一種結(jié)構(gòu)性矛盾。

          第二,上下游議價(jià)權(quán)分布不均。芯片廠商、整機(jī)廠商、數(shù)據(jù)中心運(yùn)營商、AI企業(yè)之間,存在復(fù)雜的利益博弈。當(dāng)芯片供給緊張時(shí),廠商掌握絕對話語權(quán),運(yùn)營商和應(yīng)用方被迫接受高成本。

          06

          商業(yè)模式的探索:算力如何變現(xiàn)?

          6


          智算中心規(guī)模化交付的最終目的,是實(shí)現(xiàn)可持續(xù)的商業(yè)模式。但目前,算力變現(xiàn)仍處于探索階段。

          第一,訓(xùn)練市場與推理市場的不均衡。大模型訓(xùn)練需求集中在少數(shù)巨頭,推理需求才是更廣泛的市場。但推理任務(wù)對延遲、成本敏感度更高,如何在保證算力利用率的同時(shí),實(shí)現(xiàn)靈活計(jì)費(fèi),是一大難點(diǎn)。

          第二,算力即服務(wù)(CaaS)的挑戰(zhàn)。許多智算中心提出“算力即服務(wù)”,但與云計(jì)算相比,AI算力的彈性伸縮、任務(wù)調(diào)度更為復(fù)雜,真正實(shí)現(xiàn)“像水電一樣便捷”仍然遙遠(yuǎn)。

          第三,投資回報(bào)周期過長。大規(guī)模智算中心動(dòng)輒百億級投資,而算力市場的盈利模式尚未清晰。運(yùn)營商面臨高額前期投入與不確定的長期回報(bào),這也是阻礙規(guī)模化交付的重要因素。

          結(jié)束語

          7


          智算中心規(guī)模化交付不是單一企業(yè)能完成的任務(wù),而是產(chǎn)業(yè)鏈協(xié)同與政策引導(dǎo)的系統(tǒng)工程。要跨越上述挑戰(zhàn),需要上下游產(chǎn)業(yè)的協(xié)同創(chuàng)新,不僅要解決“造”和“建”的問題,更要聚焦“用”和“運(yùn)營”的效率與效益,才能讓智算中心真正成為賦能千行百業(yè)的強(qiáng)大引擎。

          8月28日,2025中國智算產(chǎn)業(yè)綠色科技大會(huì)即將在上海舉辦,大會(huì)以“AI+綠能,算力預(yù)見新范式”為主題,匯聚政產(chǎn)學(xué)研用多方力量,圍繞綠色智算、算電協(xié)同、綠電直連、源網(wǎng)荷儲等綠色能源應(yīng)用話題,展開深度分享與討論。我們誠摯地邀請您共襄盛舉,一同見證并參與這場即將到來的產(chǎn)業(yè)變革。

          大會(huì)議程如下

          8




          責(zé)任編輯:杜烽
          相關(guān)新聞更多
            沒有關(guān)鍵字相關(guān)信息!
          文章排行榜
          官方微博