據華爾街日報12月3日報道,亞馬遜云計算部門Amazon Web Services(AWS)本周二宣布了兩項重要動態,一是宣布打造由數十萬顆自研Trainium芯片組成的超級計算機集群“Ultracluster”;二是推出全新服務器“Ultraserver”。
亞馬遜云計算
“Ultracluster”是亞馬遜位于德克薩斯州奧斯汀的AI芯片設計實驗室研發的最新成果,AWS透露“Ultracluster”將用于支持AI初創企業Anthropic的模型訓練工作。Anthropic是亞馬遜投資的重點對象,并于近期獲得了亞馬遜追加的40億美元投資。
這個名為“Project Rainier”的集群項目將位于美國,預計將在2025年投入使用,屆時將成為全球最大的AI模型訓練集群之一。AWS表示,其Ultracluster項目的計算性能是Anthropic當前訓練集群的五倍,能夠顯著提升AI模型的訓練效率。
Ultraserver服務器由64顆自研芯片互聯組成,采用創新的設計架構,為客戶提供強大的算力支持。Ultraserver通過將64顆芯片集成到一個封裝中,組合了四臺服務器,每臺服務器包含16顆Trainium芯片,相比之下,某些Nvidia的GPU服務器僅包含8顆芯片.
AWS副總裁Dave Brown表示,為了使這些芯片協同工作為一臺服務器,AWS利用其網絡技術“NeuronLink”實現四臺服務器的高效通信,從而將計算能力提升至83.2 PetaFLOPS。AWS表示,從體積來看,Ultraserver更接近于冰箱大小的主機計算機,而非緊湊型個人電腦。
AWS的AI芯片布局始于2018年發布的Inferentia芯片,這是一款專門用于AI推理計算的芯片;2020年,推出首款AI模型訓練芯片Trainium;隨后在2023年發布了性能更強的Trainium2,目前已經向客戶全面開放使用。據AWS透露,下一代Trainium3芯片及基于其的服務器正在開發中,其性能將達到當前版本的四倍。
據統計,2024年全球AI芯片市場規模達1175億美元,預計到2027年將增長至1933億美元,其中Nvidia占據約95%的市場份額。AWS首席執行官Matt Garman表示:“目前在GPU領域,幾乎只有Nvidia一家選擇。但我們相信,客戶需要更多的選擇。”