2024年10月3日,知名半導體分析機構SemiAnalysis發布了一篇名為《AI Neocloud Playbook and Anatomy》的GPU云技術的深度報告,翻譯后全文共2.6萬字。這篇報告全面分析了AI算力云(Neocloud)的構建、經濟模式、市場趨勢,以及未來展望,重點探討了H100 GPU租賃價格下降、即將推出的Blackwell GPU的影響,并提供了優化BoM、網絡架構、成本控制、以及提升可靠性和用戶體驗的實踐建議。
集群架構
報告指出,AI算力云的興起標志著全球算力需求的快速增長,尤其是GPU算力的租賃服務成為推動大模型訓練的重要支持。AI算力云市場正逐步分化為四類主要玩家:傳統云服務商、AI算力云巨頭、新興算力云以及經紀人/平臺類服務商,各自服務不同的客戶群體,滿足大模型訓練和推理等不同需求。
傳統的超大規模云服務商如Google Cloud、Microsoft Azure等占據了重要地位,憑借其全方位的云計算生態系統,向大型企業和AI實驗室提供高成本、高性能的GPU服務。而AI算力云巨頭如Coreweave、Lambda Labs等,專注于GPU租賃服務,通過靈活的定價和大規模部署滿足市場對大模型訓練和推理的需求。新興AI算力云服務商則主要面向區域性市場和較小的AI初創企業,為他們提供價格更具競爭力的算力解決方案。算力經紀人和平臺聚合商通過平臺模式或市場模式,將算力資源進行聚合和分配,幫助客戶以更低的價格獲取所需的GPU算力資源。
AI算力云的需求主要由AI初創企業和大型AI實驗室推動,這些機構需要強大的GPU算力來支持大規模的AI模型訓練和推理任務。大模型的預訓練和微調需要數千甚至數萬個GPU的集群支持,因此成為了推動GPU需求增長的核心動力。尤其是隨著大語言模型和其他AI模型的規模不斷擴大,這些企業必須依賴AI算力云來快速獲取足夠的GPU資源,以完成復雜的訓練任務。
在市場需求方面,AI算力云的客戶群體涵蓋了不同規模和需求的AI企業。從大型AI初創公司到中小型AI企業,他們在模型訓練階段需要巨大的算力投入。例如,報告中提到的OpenAI和Inflection AI等大型企業,通常與AI算力云服務商簽訂長期合作協議,在多個站點部署數萬塊GPU,以支持其大模型的訓練。這些企業的需求推動了AI算力云巨頭如Coreweave和Crusoe等服務商的崛起,他們通過提供大規模的GPU集群,滿足這些客戶對高性能計算的需求。
此外,新興的AI初創企業雖然需求較小,但依然需要通過AI算力云獲取高效的訓練資源。由于這些企業往往缺乏資金和技術能力自建基礎設施,因此他們更依賴AI算力云服務來靈活滿足訓練需求。新興的AI算力云服務商專注于為這些中小型企業提供按需租賃和短期合同的算力支持,幫助他們完成模型的訓練和微調。
在推理階段,AI模型需要在實際應用場景中實時運行,進一步加大了對GPU資源的需求。尤其是大模型推理過程中,對算力的要求雖然相較訓練任務有所降低,但仍需要強大的GPU集群支持,以確保低延遲和高效響應。因此,AI算力云服務商不僅在模型訓練階段提供算力支持,還在推理階段為企業提供高可用的GPU資源。
大模型推理過程
報告分析關注了市場需求、采購流程、定價策略、價格趨勢以及總擁有成本(TCO)。特別強調了H100 GPU租賃價格的下降,以及與即將推出的Blackwell GPU相關的定價預期。報告指出,GPU租賃定價分為按需、現貨和長期合同三種模式。按需租賃提供最大靈活性,但價格較高,通常用于開發和推理任務。合同訂閱則適合長期、大規模的訓練任務,并提供更具競爭力的價格。最近,由于H100 GPU的供應增長,租賃價格出現了明顯下降,尤其是在按需市場,價格下降了20-30%。這一變化反映出市場上閑置GPU資源的增多,同時也預示著GPU租賃市場的激烈競爭。隨著Blackwell GPU的推出,市場對H100的需求有可能發生進一步變化,企業更傾向于簽訂短期合同,以應對未來技術升級帶來的影響。
總體來看,AI算力云需求的驅動來自于AI大模型的持續發展和企業對高效算力資源的迫切需求。展望未來,AI算力云的市場規模將繼續擴大,特別是隨著更強大的GPU產品如Blackwell的發布,市場的競爭將更加激烈。