引言:
2023年開始,一批批被特殊包裹、重達數百公斤的智能裝備,從中國大地的四面八方紛紛涌向祖國北疆,這一現象一直持續至今。
OpenAI創始人山姆·阿爾特曼(Sam Altman)曾表示,通用人工智能(AGI)即將出現,而算力和能源是其發展的關鍵。這一觀點精準地闡述了人工智能、算力與能源之間的關系。由Transformer大語言模型驅動的生成式AI的快速發展,依賴于AI數據中心的算力支持(用于大語言模型的訓練與推理)。而算力的提供需要大量能源,能源的使用則需要電力變壓器、發電機及其他電氣和冷卻設備等大量需要部署在AI數據中心內外的算力基礎設施。
在全球碳中和政策的推動下,這些支撐大語言模型的算力基礎設施不僅面臨能源需求的急劇上升壓力,還需應對向綠色能源轉型的挑戰。因此,全球許多國家和地區面臨一個核心問題:進行大語言模型的訓練和推理,究竟哪個城市是最好的選擇?
生成式AI正面臨綠色能源困境
埃隆·馬斯克(ElonMusk)曾在2024年初的一次大會上說過一句耐人尋味的話:“你需要用‘電力變壓器(Transformer)’來運行‘大語言模型的Transformer結構’”。的確,生成式AI的快速發展對全球電力網絡帶來了巨大壓力,包括美國、歐洲和新加坡在內的許多國家都面臨能源問題的緊迫挑戰。據統計,到2026年,美國所有數據中心每年將產生1.55億公噸二氧化碳排放,相當于370萬輛乘用車一年的排放量。顯然,AI數據中心不僅需要充足穩定的電力,還需要綠色可持續的電力。
根據全球知名半導體研究機構SemiAnalysis在2024年3月發表的《AI數據中心能源困境》報告,未來AI數據中心建設需滿足以下幾個基本條件:
1.足夠便宜的電:鑒于持續消耗的巨大電力,電力成本要低廉,特別是隨著時間推移,推理 (Inference) 需求會不斷增加。
2.充沛穩定的電:能源供應鏈在環境干擾下要有穩定性和穩健性,以降低能源價格波動的可能性,以及能夠快速提高電力生產,從而迅速規劃大規模發電的能力。
3.持續大量的綠電:整體電力結構的碳強度要低,適合在經濟可行條件下生產大量綠色能源。
縱觀全球,能夠滿足上述條件的國家和地區屈指可數。中國在綠色能源(風能和太陽能)裝機容量方面(包括新增裝機容量)遙遙領先于其他國家。不僅如此,擁有豐富日照資源的中國內蒙古地區還具備全球領先的優勢。據國際權威機構測算,中國內蒙古地區的PVOUT(表示PV系統在給定時間段內相對于系統理論峰值功率輸出的實際發電量)高達1,700 kWh/kWp/年以上,美國為1,591 kWh/kWp/年,印度約1,400 kWh/kWp/年(其中馬哈拉施特拉邦PVOUT為1,566 kWh/kWp/年)。也就是說,內蒙古地區擁有全球競爭水準的綠色發電能力,未來可能在建設MW級AI數據中心方面處于全球領先地位。
正是憑借這一優勢,內蒙古呼和浩特近年來吸引了大批優秀大模型廠商。
打造未來超級智能的物理載體
根據中國信息通信研究院近日發布的《全球數字經濟白皮書》,截至目前,全球大語言模型數量為1328個(包括同一企業、同一模型的不同參數版本),其中中國大語言模型數量占比超過1/3,達到36%,位居全球第二。據官方最新發布,截至目前,全國已通過網信辦備案的大語言模型共有166個。
在這些廠商中,許多知名廠商的大語言模型實際上都是在呼和浩特進行訓練的,依托強大的算力資源和豐富的模型訓練場景,呼和浩特先后引進了大批大模型訓練和推理企業。目前已落地大模型超過10個,訓練總參數量已突破萬億。這其中包括很多我們熟知的大模型產品:中國電信星辰大模型、中國移動九天大模型、中國聯通元景大模型、華為盤古大模型、百度文心大模型、京東言犀大模型、科大訊飛的星火大模型、百川智能的百川大模型以及第四范式的式說大模型等。
這些大語言模型在訓練方面展現出多樣化和創新性。它們普遍強調數據的多樣性和規模,例如京東的言犀大模型融合了通用數據與供應鏈原生數據,華為的盤古大模型則利用了大量多領域數據。多模態訓練成為主流,許多模型不僅處理文本,還包括圖像、語音等數據類型,如百度的文心一言和商湯的日日新大模型。
同時,“領域特化”(在特定領域內對大模型進行訓練和優化,使其更好地處理該領域的任務和數據,提高表現和精度。)也成為一大趨勢,例如華為在中醫藥領域的深度優化。在技術創新方面,各公司各具特色,如百度采用知識增強和檢索增強技術,京東將領域知識注入大模型。
此外,模型的持續迭代也是一大特點,如百川智能持續迭代新版本。在訓練過程中,安全性和合規性被高度重視,多家公司強調了這一點。這些大模型的訓練過程都參考了權威評測榜單,反映出行業內較為統一的評估標準。
作為我國最重要的大語言模型訓練和推理基地,呼和浩特依托內蒙古地區豐富的綠色資源,全力打造全國最大的人工智能模型訓練推理基地。據統計,在全國14個發電量有盈余的省市中,內蒙古的差額最大,其發電量遠超實際使用量,為人工智能的發展提供了豐厚的資源基礎。只有具備良好綠色能源條件的地區,才能為大語言模型和人工智能的持續演進提供基礎,進而有潛力成為未來超級智能的物理載體。
呼和浩特:大語言模型訓練的理想之地
對于AI數據中心而言,大語言模型的訓練和推理是核心工作負載。那么,大語言模型的訓練究竟需要多少能源?又有哪些條件使得眾多大語言模型廠商選擇呼和浩特作為訓推基地?
當前,以OpenAI為代表的眾多AI公司正在爭相建立擁有10萬個GPU的超級AI數據中心(園區集群)項目,這些項目面臨著數據中心容量和電力供應不足的嚴峻制約。根據SemiAnalysis于2024年6月中旬發布的最新研究報告,一個擁有10萬臺GPU的AI數據中心(園區集群)需要超過150MW的數據中心容量,每年將消耗15.9億KWh的電力。按照0.078美元/KWh的標準電價計算,僅電費就高達1.239億美元。
顯然,大語言模型的訓練工作具有獨特的負載要求:
首先,大語言模型訓練不需要靠近主要人口中心,需要優先部署在具備經濟可行性的地方。在這方面,呼和浩特展現出獨特優勢。該地區依托相對獨立的蒙西電網,實施了創新的電力多邊交易機制,使數據中心平均用電價格穩定在0.32元/千瓦時左右。
其次,大語言模型工作負載非常耗電,對穩定的綠色能源需求非常大,尤其對于MW級別的AI數據中心而言。呼和浩特正積極推進綠色能源戰略,通過實施“風-光-儲”一體化清潔能源供電示范項目等相關項目的支持,為大模型訓練提供可持續的綠色能源供應,體現了呼和浩特在支持AI發展的同時對環境可持續性的長遠考慮。
最后,大語言模型在AI數據中心運行時用電特征使得儲能成為必然選擇。這些AI數據中心的用電模式高度動態且難以預測,負載可能在短時間內從100%驟降至10%,然后迅速回升。這種源于AI算法計算需求瞬時變化的劇烈波動,與傳統電網偏好的穩定負載形成鮮明對比,數據中心配備儲能設備被視為可行的解決方案,有助于平滑負載波動。據悉,目前位于呼和浩特的華電和林格爾數據中心集群360MW綠色能源供給示范項目已全面啟動建設,2024年底將建成投用。
呼和浩特的崛起,為AI產業發展樹立了一個全新的范式。截至2024年6月底,位于呼和浩特的內蒙古樞紐和林格爾數據中心集群已集聚數據中心項目32個,已投用標準機架達到26.6萬架,服務器裝機能力達到150萬臺。總算力規模達2.4萬P,其中智算算力規模2.18萬P。計劃到2025年底,數據中心標準機架達到60萬架,服務器裝機能力300萬臺,算力總規模達到8.4萬P,其中智能算力規模7.9萬P。
這片北方草原憑借豐富的綠色能源和積極高效的政策,不僅解決了大語言模型訓練的能源難題,更展現了AI發展與環境可持續性的共生之道。
隨著大語言模型企業紛紛入駐,呼和浩特正成為中國乃至全球AI產業的新高地。這里的綠色算力不僅吸引了AI企業,還為各行業的數字化轉型提供了強大支撐。從智慧農業到智能制造,從工業互聯網到智慧旅游,呼和浩特正成為綠色能源助推算力、賦能產業升級的典范。
那些重達數百公斤的數據中心服務器不斷涌向祖國北疆,承載的是中國在全球AI競爭中的雄心。呼和浩特的成功,標志著中國在融合綠色能源、強大算力和尖端AI技術方面邁出了關鍵一步,為自身在全球AI版圖中贏得了獨特而重要的地位。