近日,有幸參觀了中國移動智算中心(哈爾濱)。該中心是全球運營商最大單集群智算中心,AI芯片國產(chǎn)化率100%,首次通過國產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬張智算卡單集群部署規(guī)模上限,可提供6.9EFLOPS(每秒690億億次半精度浮點運算)智能算力,融合分級存儲達(dá) 150P,創(chuàng)新應(yīng)用GSE1.0,天池SDN等多項中國移動自主研發(fā)技術(shù)。
中國移動智算中心(哈爾濱)曾用名#哈爾濱數(shù)據(jù)中心,中國移動移動的三大低成本數(shù)據(jù)中心(另外兩個在內(nèi)蒙古和貴州)。
哈爾濱數(shù)據(jù)中心抓住全球大模型高速增長商機,在當(dāng)?shù)卣、集團(tuán)公司及供應(yīng)鏈伙伴的支持下,基于“D-PDCA雙循環(huán)”管理機制,歷時兩個100天,完成3千多平米高功耗機房重大調(diào)整改造,千萬級精密器件復(fù)雜施工;在30多個單位,千余人的協(xié)同作戰(zhàn)下,提前4個月,建成全球運營商最大單集群智算中心,充分展現(xiàn)了龍江速度。
第一個“一個100天”,完成機房的電源、空調(diào)、電氣、建筑結(jié)構(gòu)的擴(kuò)容及智能化改造。業(yè)內(nèi)首次挑戰(zhàn)46KW高功耗風(fēng)冷,創(chuàng)新引入大型集裝箱式“10KV中壓直供設(shè)備”新型供電模式,通過規(guī)、建、監(jiān)、施協(xié)同作戰(zhàn),優(yōu)化創(chuàng)新方案、專業(yè)強化管理等措施,實現(xiàn)430可裝機,530全加電,620優(yōu)交付,工期壓縮40%。
第二個“一個100天”,實現(xiàn)智算集群全量設(shè)備點亮。面對大規(guī)模集群施工在技術(shù)領(lǐng)先性、首創(chuàng)性和復(fù)雜性的交付挑戰(zhàn),通過“早啟動、定標(biāo)準(zhǔn)、造工具、融工序、勇創(chuàng)新、強投入”六大舉措,筑牢集群質(zhì)量,實現(xiàn)610可調(diào)測,730全點亮,830全交付,提前4個月投產(chǎn)。
中國移動智算中心(哈爾濱)支持萬卡并行訓(xùn)練,智能斷點續(xù)訓(xùn),AI任務(wù)生命周期管理,分鐘級故障定界、定位。目前,中國移動九天千億參數(shù)模型已在集群上實現(xiàn)高效、長期穩(wěn)定訓(xùn)練。
中國移動智算中心(哈爾濱)通過科學(xué)管理、精細(xì)化設(shè)計和高工藝實施,完成集群穩(wěn)定性、算力效率、海量數(shù)據(jù)和高可用性挑戰(zhàn),打造具備極致算力、極限組網(wǎng)、極效存儲、極速運維的智算“超級工廠”,釋放算力集群優(yōu)勢,為萬億模型訓(xùn)練提供強大的算力底座。
極致算力,AI芯片國產(chǎn)化率100%,首次通過國產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬張智算卡單集群部署規(guī)模上限,算力達(dá)到 6.9EFLOPS(每秒 690 億億次半精度浮點運算),通過單一集群強大算力有效支撐大型AI模型訓(xùn)練,并通過網(wǎng)絡(luò)精細(xì)化設(shè)計、軟硬件全棧整合優(yōu)化,實現(xiàn)集群算力效率的近線性提升,確保萬卡集群最大化釋放算力,滿足萬億參數(shù)大模型訓(xùn)練要求。
極限組網(wǎng),采用國產(chǎn)46KW 風(fēng)冷網(wǎng)絡(luò)設(shè)備、構(gòu)建最大規(guī)模兩級組網(wǎng)。高性能、高功耗國產(chǎn)網(wǎng)絡(luò)設(shè)備首次端口滿負(fù)荷配置,達(dá)到網(wǎng)絡(luò)設(shè)備能力上限,采用高速、低延時、無阻塞兩級組網(wǎng),保證數(shù)據(jù)的高效通信。創(chuàng)新應(yīng)用中國移動自研的天池SDN,提供網(wǎng)絡(luò)功能自服務(wù)能力;創(chuàng)新引入中國移動自主知識產(chǎn)權(quán)、首個非美標(biāo)智算組網(wǎng)GSE技術(shù)。
極效存儲,面對萬億模型PB級訓(xùn)練數(shù)據(jù)集的多協(xié)議處理,采用大規(guī)模融合分級存儲,通過訓(xùn)練數(shù)據(jù)智能分級和統(tǒng)一管理,實現(xiàn)數(shù)據(jù)高效共享和處理,滿足大模型訓(xùn)練時海量、多樣數(shù)據(jù)的高效處理和高吞吐要求。
極速運維,建立SLA標(biāo)準(zhǔn)服務(wù)支撐體系,提供矩陣式維護(hù)服務(wù);部署一體化智能管控工具,對AI訓(xùn)練任務(wù)進(jìn)行全生命周期管理,實現(xiàn)小時級智能斷點續(xù)訓(xùn)、分鐘級故障定界定位;建立Class8級機房環(huán)境標(biāo)準(zhǔn),降低千萬精密器件故障率。通過制度、技術(shù)和標(biāo)準(zhǔn)三大措施,保障萬張AI加速卡長時間穩(wěn)定并行訓(xùn)練,為萬億模型訓(xùn)練提供高性能、高可用、高可靠的算力底座。
“該集群高效靈活的智算云服務(wù)能力,將為萬億級大模型提供高效、穩(wěn)定、安全可控的算力底座,推動國內(nèi)人工智能產(chǎn)業(yè)健康發(fā)展!敝袊苿雍邶埥菊笫聵I(yè)部經(jīng)理郅剛說。