10月30日消息,KKR和私募股權(quán)投資公司Energy Capital Partners(ECP)將投資500億美元全面支持人工智能發(fā)展,主要方向?yàn)?a target="_blank">數(shù)據(jù)中心和能源領(lǐng)域。
10月30日消息,萬(wàn)國(guó)數(shù)據(jù)國(guó)際業(yè)務(wù)再獲10億美元股權(quán)融資,助力加速海外新興市場(chǎng)戰(zhàn)略布局。
10月30日消息,西貢電信技術(shù)股份公司(Saigontel)有意在胡志明市古芝縣新富忠工業(yè)園(Tan Phu Trung)開發(fā)新的數(shù)據(jù)中心項(xiàng)目。
10月28日消息,微軟計(jì)劃在利金縣開發(fā)三個(gè)數(shù)據(jù)中心園區(qū),并在初始階段投資10億美元。該項(xiàng)目于周一獲得了州稅收優(yōu)惠的批準(zhǔn)。
10月28日消息,銀川中創(chuàng)普惠智算中心項(xiàng)目12月初將完成設(shè)備調(diào)試,最快年底完成交付。
10月28日消息,中國(guó)(新疆)自貿(mào)試驗(yàn)區(qū)喀什片區(qū)智算中心預(yù)計(jì)11月中旬完成一期機(jī)房改造,最快年底將夠提供算力服務(wù)。
10月25日消息,中貝合肥智算中心與知魚智聯(lián)正式簽署算力集群交接書,完成首批華為910B算力集群交付。
10月24日消息,河南空港智算中心項(xiàng)目首批2000P算力正式進(jìn)入加電調(diào)試階段。
10月24日,尚航科技重磅發(fā)布尚航全新智算中心項(xiàng)目——“懷來尚云智算中心”。
……
10月8日,富士康宣布,將攜手英偉達(dá)(NVIDIA),打造有史以來全球最快的單體AI超級(jí)計(jì)算中心——鴻海高雄超級(jí)計(jì)算中心。
……
10月以來,全球數(shù)據(jù)中心建設(shè)布局熱度不減,尤其我國(guó)大批智算中心建設(shè)正全面提速,很多項(xiàng)目都陸續(xù)進(jìn)入交付階段。然而,隨著生成式AI應(yīng)用的持續(xù)發(fā)展,在進(jìn)行智算中心規(guī)劃和建設(shè)時(shí),很多重要新變化值得引起行業(yè)關(guān)注,涉及智算中心的設(shè)施工程、電力、制冷等諸多廠商。
全球數(shù)據(jù)中心建設(shè)布局
其中,兩個(gè)重大變化值得整個(gè)IDC產(chǎn)業(yè)關(guān)注:一個(gè)是算力密度增加帶來的設(shè)計(jì)、設(shè)備等一系列要求變化,主要涉及包括GPU的利用率以及總擁有成本TCO等問題。一個(gè)是電力需求引發(fā)的整體布局、設(shè)計(jì)、設(shè)備的要求變化,主要涉及包括工作負(fù)載以及故障等問題。
01 Meta拆了在建的數(shù)據(jù)中心
2022年12月,Meta對(duì)外宣布已經(jīng)停建了兩個(gè)位于丹麥歐登塞的數(shù)據(jù)中心,Meta這一動(dòng)作的主要原因是舊設(shè)計(jì)(下圖左側(cè))是針對(duì)低功率密度(Power Density)的方案,無(wú)法滿足AI的全新需求,之后Meta用全新AI就緒設(shè)計(jì)(AI-Ready design)(下圖右側(cè))替代了原有方案,這一舉措對(duì)全球數(shù)據(jù)中心行業(yè)引發(fā)著深遠(yuǎn)影響。
AI就緒設(shè)計(jì)
【IDC圈注】“AI就緒設(shè)計(jì)(AI-Ready design)”指的是為應(yīng)對(duì)人工智能應(yīng)用而特別優(yōu)化和配置的數(shù)據(jù)中心設(shè)計(jì)。這類設(shè)計(jì)通過采用最新的硬件和電力系統(tǒng)來支持AI的高功率和高密度計(jì)算需求。例如,它們集成了高效的電力傳輸、冷卻系統(tǒng)和計(jì)算密度,能夠支持AI訓(xùn)練和推理任務(wù)所需的強(qiáng)大計(jì)算能力。AI就緒設(shè)計(jì)通常包括更高的功率密度、先進(jìn)的冷卻技術(shù)(如液冷),并針對(duì)GPU和AI工作負(fù)載進(jìn)行優(yōu)化,以實(shí)現(xiàn)更高的性能和能效。這樣,數(shù)據(jù)中心能夠更好地滿足AI應(yīng)用的性能需求,并降低整體的總擁有成本(TCO)。
Meta原有的“H"型舊設(shè)計(jì),對(duì)建筑整體建設(shè)部署成本較高:通過計(jì)算發(fā)電機(jī)組數(shù)量比較會(huì)發(fā)現(xiàn),其"H"型建筑最多配備36個(gè)發(fā)電機(jī)組,但Google使用更大容量的發(fā)電機(jī)僅需34個(gè),而且其單體建筑面積是Google建筑的一倍多。考慮到規(guī)模和結(jié)構(gòu)的復(fù)雜性,建設(shè)周期差異很大:"H"建筑從開工到竣工需要約兩年時(shí)間,而Google的建筑僅需6-7個(gè)月。
然而,以上都不是做出設(shè)計(jì)改變的根本動(dòng)因,更重要的是功率密度:Meta原有的“H"型建筑每平方英尺千瓦數(shù)不足Google數(shù)據(jù)中心的1/3,哪怕"H"建筑在能源效率方面具有顯著優(yōu)勢(shì),依然無(wú)法抵消其在生成式AI競(jìng)爭(zhēng)中的劣勢(shì)。因?yàn)槿魏螣o(wú)法提供更高密度液體冷卻能力的數(shù)據(jù)中心,將來都無(wú)法為客戶帶來顯著的性能與總擁有成本(TCO)改進(jìn),進(jìn)而導(dǎo)致在生成式AI競(jìng)爭(zhēng)中落后。
02 算力密度增加帶來“新變”
近年來,數(shù)據(jù)中心的性能演進(jìn)正逐步適應(yīng)高功率密度和AI工作負(fù)載的需求,但這一過程面臨著技術(shù)和經(jīng)濟(jì)上的多重挑戰(zhàn)。
數(shù)據(jù)中心的性能演進(jìn)
首先,高功率密度方面,目前大多數(shù)現(xiàn)有托管數(shù)據(jù)中心都還沒有準(zhǔn)備好支持單機(jī)架功率密度超過20 KW的需求。盡管預(yù)計(jì)2024年芯片供應(yīng)瓶頸將有所緩解,但對(duì)于超大規(guī)模企業(yè)和托管服務(wù)提供商可能仍然會(huì)面臨數(shù)據(jù)中心容量的限制,尤其是在人工智能方面相關(guān)因素的準(zhǔn)備不足。例如,傳統(tǒng)托管設(shè)施中普遍存在的12-15kW功率限制等,都可能會(huì)成為建設(shè)AI集群數(shù)據(jù)中心理想物理密度的障礙。
AI集群數(shù)據(jù)中心
一般來說,在新建數(shù)據(jù)中心中部署背板式熱交換器和液冷方案,可以有效解決功率密度問題。但與采用傳統(tǒng)設(shè)計(jì)方案的已建設(shè)數(shù)據(jù)中心進(jìn)行改造相比,從頭設(shè)計(jì)融入這些解決方案的新數(shù)據(jù)中心其實(shí)更合理。因?yàn)楦脑飕F(xiàn)有的數(shù)據(jù)中心會(huì)存在各種各樣不可預(yù)知的問題。比如,可能缺乏足夠的物理空間容納額外的2-3 MW發(fā)電機(jī)、不間斷電源(UPS)、開關(guān)設(shè)備或變壓器等,而且重新鋪設(shè)管道以適應(yīng)液冷所需的冷卻分配單元(CDU)等設(shè)備在某些情況下難度也會(huì)比較大。Meta也正是因?yàn)橐庾R(shí)到這一點(diǎn),所以暫停了原有的數(shù)據(jù)中心項(xiàng)目,轉(zhuǎn)而重新設(shè)計(jì)專為人工智能工作負(fù)載定制的新型數(shù)據(jù)中心。
以NVIDIA的DGX H100服務(wù)器為例,為了滿足高功率密度,其部署方式會(huì)受到數(shù)據(jù)中心的電力和制冷能力限制有所不同,單個(gè)機(jī)架內(nèi)可能僅能部署2到3臺(tái)DGX H100服務(wù)器,并將相鄰機(jī)架留空。
服務(wù)器部署方式
此外,隨著越來越多的數(shù)據(jù)中心開始支持人工智能工作負(fù)載,通過增加專用氣流設(shè)備,單個(gè)機(jī)架的功率密度有望達(dá)到30-40 kW,甚至更高,并且仍采用空氣冷卻的方式。未來采用液冷技術(shù)可以減少風(fēng)扇的用電量,從而降低單機(jī)架的能耗約10%,并通過減少或消除對(duì)環(huán)境空氣冷卻的依賴,使電力使用效率(PUE)降低0.2-0.3。當(dāng)然,這對(duì)大多數(shù)數(shù)據(jù)中心來說也是最后一波顯著的PUE優(yōu)化空間。
數(shù)據(jù)中心空氣冷卻方式
更值得關(guān)注的是,AI訓(xùn)練和推理對(duì)數(shù)據(jù)中心的工作負(fù)載有著獨(dú)特的要求,這與現(xiàn)有數(shù)據(jù)中心中部署的典型硬件有很大不同。
AI訓(xùn)練工作負(fù)載非常耗電,AI硬件的運(yùn)行功率通常接近其熱設(shè)計(jì)功率(TDP),每臺(tái)AI服務(wù)器現(xiàn)在都超過了10KW。再考慮到AI訓(xùn)練對(duì)延遲不敏感,以及對(duì)靠近人口中心重要性的降低,這意味著與傳統(tǒng)工作負(fù)載相比,對(duì)于AI訓(xùn)練來說,大量廉價(jià)電力的可用性(未來獲得任何電網(wǎng)供應(yīng)的可能性)對(duì)于工作負(fù)載而言具有更高的相對(duì)重要性。而對(duì)于AI推理來說,最終將會(huì)產(chǎn)生比訓(xùn)練更大的工作負(fù)載,總體規(guī)模將是巨大的,但不同于訓(xùn)練,推理可以是相當(dāng)分布式的,芯片并不需要集中放置。
03 電力需求提升引發(fā)“新變”
AI訓(xùn)練和推理的巨大需求正在成為數(shù)據(jù)中心規(guī)劃建設(shè)諸多變化的主要驅(qū)動(dòng)力,使得電力供應(yīng)緊張加劇,更重要的是電力需求提升將正在導(dǎo)致電力或冷卻系統(tǒng)問題頻發(fā),進(jìn)而持續(xù)影響著整個(gè)產(chǎn)業(yè)格局。
AI訓(xùn)練和推理
電力需求有多大?
一個(gè)包含20,840個(gè)Nvidia H100集群的數(shù)據(jù)中心需要約25.9MW的核心IT功率容量。而目前,整個(gè)數(shù)據(jù)中心行業(yè)正在建設(shè)容量更高的100,000個(gè)H100集群和千兆瓦級(jí)(Gigawatt)集群,數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電能力需求還將繼續(xù)飆升。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電能力需求
Source:SemiAnalysis Datacenter Model
數(shù)據(jù)中心的電力挑戰(zhàn)
以Nvidia為例,其GB200系列的高功率需求(每個(gè)機(jī)架超過130kW)與以往的數(shù)據(jù)中心設(shè)計(jì)截然不同,這也就導(dǎo)致當(dāng)前新建數(shù)據(jù)中心(智算中心)在電力系統(tǒng)方面要格外重視。
未來,任何數(shù)據(jù)中心的電力或冷卻系統(tǒng)問題都可能導(dǎo)致運(yùn)營(yíng)中斷,進(jìn)而帶來巨大的收入損失和聲譽(yù)損害。這對(duì)于云服務(wù)提供商(CSP,如Azure和AWS)以及托管服務(wù)提供商(如托管數(shù)據(jù)中心房地產(chǎn))尤為重要。確保高正常運(yùn)行時(shí)間(Uptime)是確保收入的關(guān)鍵,這很大程度上依賴于電力與冷卻系統(tǒng)的可靠性。盡管電氣故障相對(duì)更常見,但通常其影響范圍較小,而冷卻系統(tǒng)故障的破壞性往往更大。
從數(shù)據(jù)中心和電力流角度來看,現(xiàn)代數(shù)據(jù)中心正在通過模塊化方式構(gòu)建,一座數(shù)據(jù)中心通常被分解為多個(gè)機(jī)房(Data Halls,藍(lán)色矩形),每棟數(shù)據(jù)中心建筑(約25萬(wàn)平方英尺)的關(guān)鍵IT容量(Critical IT capacity)為48MW,每棟建筑分為五個(gè)機(jī)房,即每個(gè)機(jī)房9.6MW。
數(shù)據(jù)中心模塊化方式構(gòu)建
Source:Google Earth,SemiAnalysis
在一個(gè)機(jī)房?jī)?nèi)有多個(gè)"Pod",每個(gè)Pod都有自己專用的一組電氣設(shè)備:發(fā)電機(jī)(Generator,橙色矩形)、變壓器(Transformer,綠色矩形)、不間斷電源(UPS)和開關(guān)設(shè)備(Switchgear)。在上圖中,可以看到每個(gè)機(jī)房有四個(gè)發(fā)電機(jī)和變壓器。還有四個(gè)Pod,這也意味著四個(gè)低壓配電板(Switchboards)和八個(gè)UPS系統(tǒng)(假設(shè)2N配電冗余)。
機(jī)房發(fā)電機(jī)
Source:Legrand
機(jī)房通常劃分為Pod以實(shí)現(xiàn)模塊化和標(biāo)準(zhǔn)化的設(shè)計(jì),主要有以下兩個(gè)原因:
1.模塊化:設(shè)施可以根據(jù)負(fù)載需求逐步擴(kuò)展,以實(shí)現(xiàn)快速適應(yīng)高負(fù)載的能力。
2.標(biāo)準(zhǔn)化:Pod的設(shè)計(jì)使其與標(biāo)準(zhǔn)化的電氣設(shè)備相匹配,這些設(shè)備在市場(chǎng)上更易于采購(gòu)且成本較低,避免了訂制設(shè)備的高昂價(jià)格。
以Nvidia的下一代Blackwell數(shù)據(jù)中心設(shè)計(jì)為例,在新的架構(gòu)中,一個(gè)通道甚至一整排機(jī)架都將作為機(jī)房中的新“Pod”。
數(shù)據(jù)中心設(shè)計(jì)
而在電力傳輸架構(gòu)中,每個(gè)機(jī)架需要兩個(gè)(NVL36)或四個(gè)(NVL72)33kW電源架,考慮到空間和密度限制,不太可能使用機(jī)架內(nèi)BBU(Battery Backup Unit,電池備份單元),這意味著中央U(xiǎn)PS依然是必需的。
中央U(xiǎn)PS
因此,電力需求的大幅增長(zhǎng)將導(dǎo)致供應(yīng)商的供貨量顯著提升,這很可能進(jìn)一步加劇供應(yīng)鏈緊張。
模塊化UPS
傳統(tǒng)UPS是數(shù)據(jù)中心用電效率"殺手",導(dǎo)致數(shù)據(jù)中心PUE居高不下。而現(xiàn)代UPS系統(tǒng)大多采用模塊化設(shè)計(jì):不再使用單一的大型設(shè)備,而是將其拆分為若干可堆疊、并聯(lián)工作的小型"電力模塊"。以Vertiv最新產(chǎn)品為例,單個(gè)電力模塊的容量為200kVA或400kVA,模塊化UPS產(chǎn)品可在單機(jī)柜內(nèi)集成多達(dá)10個(gè)電力模塊,多機(jī)柜并聯(lián)可進(jìn)一步擴(kuò)容,單系統(tǒng)最大容量可達(dá)27MW。此外,現(xiàn)代模塊化UPS采取了多項(xiàng)節(jié)能設(shè)計(jì)。比如Vertiv的產(chǎn)品支持"變頻節(jié)能模式"(VFD mode),可繞過變流器,將效率提升至99%以上。但這種模式下切換時(shí)間可能延長(zhǎng)數(shù)毫秒,存在瞬時(shí)斷電風(fēng)險(xiǎn)。
模塊化UPS
Source:Vertiv
此外,超大規(guī)模數(shù)據(jù)中心通常采用4N3R(四套可用設(shè)備對(duì)應(yīng)正常運(yùn)行所需的三套)或N+2C(也稱為"Catcher")等方案,以提高UPS負(fù)載利用率(更高效),并降低每兆瓦的資本支出(CapEx)。
在Catcher方案中,沒有配置兩個(gè)滿載能力的UPS系統(tǒng)(如下例中的2*3MW),而是采用N+1設(shè)計(jì),包含多個(gè)較小的UPS(3*1MW)和一個(gè)冗余單元。當(dāng)出現(xiàn)故障時(shí),我們使用靜態(tài)轉(zhuǎn)換開關(guān)(Static Transfer Switches,STS)將負(fù)載瞬間從一個(gè)UPS切換到另一個(gè)。STS比自動(dòng)轉(zhuǎn)換開關(guān)(ATS)快得多,因?yàn)樗鼈円揽侩娏﹄娮釉菣C(jī)械部件。在4N3R方案中,我們使用四套獨(dú)立的配電系統(tǒng),從配電一直到背板(即從電源線一直到發(fā)電機(jī)和變壓器),其中僅需三套即可保證運(yùn)行。
Catcher方案
Source:SOCOMEC
OCP機(jī)架與電池備份
值得關(guān)注的是,超大規(guī)模企業(yè)往往會(huì)突破常規(guī),另辟蹊徑。比如Meta十年前推出的OCP(Open Compute Project)開放計(jì)算機(jī)架就是個(gè)典型案例。在傳統(tǒng)機(jī)架設(shè)計(jì)中,服務(wù)器通過配置在機(jī)柜內(nèi)的PDU獲得交流市電,再經(jīng)服務(wù)器內(nèi)置的整流器轉(zhuǎn)換為直流。而OCP的思路是:不如集中配置一個(gè)功能強(qiáng)大的電源架(Power Shelf),直接輸出直流電,再通過bus bar統(tǒng)一配送到各服務(wù)器,從而省去每臺(tái)服務(wù)器配備AC/DC轉(zhuǎn)換器的重復(fù)投入。
此外,OCP電源架還可集成BBU,相當(dāng)于一個(gè)"微型UPS",可在市電斷供時(shí)持續(xù)輸出直流電幾分鐘,保障服務(wù)器安全關(guān)機(jī)。由于電源架位于機(jī)柜內(nèi)部,所以BBU的直流電可就近輸送給服務(wù)器,免去了傳統(tǒng)UPS系統(tǒng)中兩次AC/DC的轉(zhuǎn)換損耗。而機(jī)房由于不再需要集中的A、B雙路UPS,所需電池容量也減少了一半。為進(jìn)一步降低布線損耗,Google在此基礎(chǔ)上提出了48V直流供電方案。
當(dāng)然,在機(jī)柜內(nèi)大規(guī)模部署鋰電池,對(duì)防火、環(huán)控等配套設(shè)施提出了更高要求。傳統(tǒng)UPS電池多集中布置在獨(dú)立的電池室內(nèi),易于統(tǒng)一管理,這一點(diǎn)OCP設(shè)計(jì)還難以企及。
傳統(tǒng)UPS電池布置
Source:Schneider Electric
柴油發(fā)電機(jī)的前景與變化
與此同時(shí),隨著AI的快速發(fā)展超大規(guī)模數(shù)據(jù)中心正迅速擴(kuò)展,并努力縮短數(shù)據(jù)中心的建設(shè)周期。柴油發(fā)電機(jī)也因此面臨挑戰(zhàn),尤其是因其噪音和污染物排放而受到的許可限制。
柴油發(fā)電機(jī)
Source:SemiAnalysis
實(shí)時(shí)圖像分析顯示,Meta正考慮完全繞過發(fā)電機(jī)。而Microsoft的超大型數(shù)據(jù)中心將只使用部分發(fā)電機(jī)負(fù)載,X.AI在孟菲斯的項(xiàng)目也采用了電池儲(chǔ)能系統(tǒng),發(fā)電機(jī)作為現(xiàn)場(chǎng)電源的備選,這種變革顯示出備用電源正在向更環(huán)保的電池儲(chǔ)能解決方案轉(zhuǎn)移。
電池儲(chǔ)能解決方案
當(dāng)然,在當(dāng)前的超大規(guī)模數(shù)據(jù)中心內(nèi),發(fā)電機(jī)依然是不可或缺的選擇,在超大規(guī)模數(shù)據(jù)中心內(nèi),備用發(fā)電機(jī)的單機(jī)容量一般為2~3MW,園區(qū)內(nèi)動(dòng)輒部署數(shù)十臺(tái)發(fā)電機(jī)。當(dāng)前,這些發(fā)電機(jī)通常以柴油為燃料,但未來天然氣可能會(huì)成為主要的替代選擇。它們的儲(chǔ)油量一般可滿足24~48小時(shí)的滿負(fù)荷應(yīng)急供電。盡管柴油發(fā)電的能效更高,但煙氣污染也更嚴(yán)重。因此,在環(huán)保要求嚴(yán)格的地區(qū),柴油發(fā)電機(jī)往往配備有尾氣處理裝置,造價(jià)也更高。
最后,還有一個(gè)略微產(chǎn)生影響的變化因素是冗余度(Redundancy Level)的降低——超大規(guī)模運(yùn)營(yíng)商已經(jīng)開始這樣做。在大規(guī)模訓(xùn)練過程中,由于GPU節(jié)點(diǎn)上的高故障率,訓(xùn)練框架被迫發(fā)展出了強(qiáng)大的容錯(cuò)機(jī)制,使得現(xiàn)代訓(xùn)練系統(tǒng)具備了較好的抗故障能力(Robustness),這使得數(shù)據(jù)中心端較低的冗余水平變得越來越可以接受。
總之,當(dāng)前數(shù)據(jù)中心建設(shè)與AI技術(shù)的發(fā)展密不可分,尤其對(duì)于正處于火熱建設(shè)中的中國(guó)智算中心建設(shè)市場(chǎng)來說,快速的市場(chǎng)變化需要強(qiáng)有力的設(shè)計(jì)和運(yùn)營(yíng)合作伙伴,以應(yīng)對(duì)增長(zhǎng)的功率密度需求和不斷變化的技術(shù)趨勢(shì)。供應(yīng)商之間的合作將推動(dòng)更高效、更具擴(kuò)展性的滿足AI的數(shù)據(jù)中心設(shè)計(jì),并在競(jìng)爭(zhēng)激烈的市場(chǎng)中取得領(lǐng)先地位。
參考資料及文章內(nèi)容來源:
1.Deploying The AI Factory
2.Datacenter Anatomy Part 1_ Electrical Systems
3.Al Datacenter Energy Dilemma
4.Generational growth Al,data centers and the coming US power demand surge
5.Powering Up Europe:AI datacenters and electrification to drive+c.40%-50%growth in electricity consumption etc.
中國(guó)IDC產(chǎn)業(yè)年度大典組委會(huì)將于2024年12月19日-20日在北京隆重舉辦第十九屆中國(guó)IDC產(chǎn)業(yè)年度大典(IDCC2024)。(點(diǎn)擊鏈接,了解核心話題:多元重構(gòu)算力躍遷|第十九屆中國(guó)IDC產(chǎn)業(yè)年度大典即將啟動(dòng)?。┐髸?huì)聚焦“智算崛起”“賦能協(xié)同”“環(huán)球布局”“誰(shuí)主沉浮”“算力新十年”幾大議題模塊,旨在探討算力產(chǎn)業(yè)的未來發(fā)展方向、技術(shù)創(chuàng)新、商業(yè)模式變革以及可持續(xù)發(fā)展路徑。攜手算力產(chǎn)業(yè)精英,共同推動(dòng)中國(guó)乃至全球數(shù)字經(jīng)濟(jì)的繁榮與發(fā)展。目前報(bào)名通道已開啟,掃描以下二維碼即可報(bào)名。
IDCC2024-第十九屆中國(guó)IDC產(chǎn)業(yè)年度大典報(bào)名