天天做天天爱夜夜爽毛片毛片,精品午夜福利1000在线观看,被喂春药蹂躏的欲仙欲死视频,大地资源二在线观看免费高清

2-1

北京時間3月19日凌晨,英偉達創始人兼CEO黃仁勛發表GTC 2025主題演講。黃仁勛宣布了一系列重磅發布,展示了英偉達在加速計算和AI領域的最新進展和未來布局。

黃仁勛指出,AI處于一個關鍵的轉折點,推理和Agentic AI的需求推動了計算量的激增。他還預測到2030年,數據中心的建設規模將達到一萬億美元;未來有工廠的企業將會有兩個工廠:一個用于生產實際產品,另一個是AI工廠。

大會現場,黃仁勛宣布Blackwell平臺已全面投產,在特定推理模型測試場景下,Blackwell的性能最高可達Hopper的40倍。今年下半年將推出的Blackwell Ultra,還透露了下一代 NVIDIA Rubin Ultra GPU 和 NVIDIA Vera CPU 架構的細節。

此外,宣布推出“AI工廠的操作系統”Nvidia Dynamo,用于加速和擴展AI工廠中的推理模型;為支持AI工廠擴展到數百萬個GPU,還推出了首個采用共同封裝光學(CPO)技術的硅光子系統等。

Nvidia Dynamo 是一款開源的 AI 推理服務軟件,專為加速和擴展 AI 工廠中的 AI 推理模型而設計。它通過高效地編排和協調大量 GPU 上的 AI 推理請求,確保 AI 工廠以最低成本運行,同時最大化 token 收入。

據IDC圈不完全統計,當前國內擬建、在建智算中心約有600座左右(詳情參考:600+智算項目450+未投產,DeepSeek對IDC產業9大沖擊|算力產業核心內刊)。Nvidia Dynamo發布之后,將對這些項目的下一步部署和運營帶來極大影響。黃仁勛還宣布通用汽車將采用NVIDIA AI、模擬和加速計算技術來開發下一代汽車、工廠和機器人。在機器人方面,英偉達還發布了Omniverse(物理AI的操作系統)、新一代世界基礎模型Cosmos、Newton(與DeepMind和Disney Research合作開發的物理引擎)以及人形機器人的通用基礎模型Isaac Groot N1并開源。

以下是GTC2025黃仁勛演講全文實錄

經數字開物團隊編譯整理

歡迎來到GTC!今年真是太棒了。我們Nvidia一直想把GTC辦好,所以,今天我們用AI的魔法,帶大家到Nvidia總部逛一逛。猜猜這是哪兒?這就是我們平時工作的地方!真是精彩的一年。我們有很多超酷的事情要和大家分享。先說好,我可是完全即興發揮,沒有稿子,也沒有提詞器,不過我要講的東西可不少。咱們這就開始吧!

首先,我要感謝所有的贊助商,感謝所有參與這次大會的嘉賓們。幾乎各行各業都有代表參加。醫療、交通、零售,還有計算機行業,計算機行業的各位都來了。見到大家真是太好了,感謝你們的贊助。

GTC最早是從GeForce開始的。一切都源于GeForce。今天我手上拿的是GeForce5090。你敢信嗎,我們開始做GeForce已經25年了,現在GeForce在全世界都賣斷貨了。這是5090,采用Blackwell架構。跟4090比,體積小了30%,散熱效果好了30%,性能更是難以置信,甚至難以比較,這都得歸功于AI。

GeForce把CUDA帶給了全世界,CUDA又讓AI成為可能。現在,AI反過來又徹底改變了計算機圖形學。你們現在看到的可是實時的計算機圖形,100%路徑追蹤。每渲染一個像素,AI就能預測出另外15個。想想看,我們用數學方法渲染一個像素,AI就能推算出另外15個!而且,它還必須算得特別準,這樣圖像才好看,而且還得保證時序穩定,也就是說,一幀一幀地看,不管是往前還是往后,因為這是計算機圖形,所以它得一直保持穩定。

2-2

太不可思議了,AI這些年進步太大了。雖然也就10年時間。我們討論AI的時間可能更長一些。但AI真正火起來,也就是十年前的事。一開始是感知AI,比如計算機視覺、語音識別,后來就是生成式AI過去五年,我們主要關注生成式AI,教AI怎么把一種形式的東西轉換成另一種形式。文本變圖像,圖像變文本,文本變視頻,氨基酸變蛋白質,屬性變化學物質。我們能用AI生成各種各樣的東西。

生成式AI徹底改變了計算機的工作方式,從原來的檢索式計算模型,變成了現在的生成式計算模型。以前,我們做的基本上都是預先創建好內容,存好幾個版本,用的時候再挑一個合適的。現在,AI能理解你說的是什么,明白你的意思,知道你要干什么,然后直接生成你需要的東西。有需要的話,它還會自己去找資料,加深理解,然后給你生成答案。它不再是簡單地找數據,而是直接生成答案。這可是計算方式的根本性變革,計算機的每一層都變了。

過去幾年,特別是最近兩三年,AI領域有了重大突破。這是AI的根本性進步。我們管它叫基于智能體的AI(Agentic AI)。Agentic AI基本上意味著AI有了自己的“代理”,能自己干活了。它能感知周圍的環境,理解發生了什么。它能推理,更厲害的是,它能琢磨怎么回答問題,怎么解決問題。它能規劃行動,并付諸實踐。它還能用各種工具,因為它現在能理解各種各樣的信息,也就是多模態信息。它能上網,看網頁的布局、文字、視頻,甚至還能看視頻學習,理解了之后,再用這些新學到的知識來完成任務。

Agentic AI的核心,當然是一種全新的能力——推理。而且,下一波浪潮已經來了。今天我們會好好聊聊這個。這就是機器人技術(Robotics),它是由物理AI(physical AI)來驅動的。物理AI就是能理解現實世界的AI,它懂摩擦力、慣性、因果關系、物體恒存性這些東西。比方說,一個東西挪到墻角后面了,AI知道它還在那兒,只是看不見了。所以說,這種理解現實世界、理解三維世界的能力,會開啟一個AI的新時代,我們叫它物理AI,它會讓機器人技術更上一層樓。

2-3

每一個階段,每一波浪潮,都給我們大家帶來了新的賺錢機會。也給GTC帶來了更多新的合作伙伴。所以,GTC現在都快擠爆了。要想讓更多人來GTC,唯一的辦法就是把圣何塞給擴建了。我們正在努力,我們有的是地。圣何塞,你可得加油發展,這樣我們才能把GTC辦得更大更好。說真的,我站在這兒,真希望你們也能看到我看到的。我們現在就在一個體育場的正中間。去年是咱們恢復線下活動的第一年。當時就跟搖滾音樂會似的。有人說GTC是AI界的伍德斯托克音樂節。今年呢,又有人說它是AI界的超級碗。唯一的區別就是,在這個超級碗里,大家都是贏家!所以,每年都有越來越多的人來,因為AI能給越來越多的行業、越來越多的公司解決更多更有意思的問題。今年,要好好聊聊Agentic AI和物理AI的核心。

那么,到底是什么推動了AI的每一波浪潮和每一個階段呢?這里面有三個關鍵。

首先是怎么解決數據的問題。這一點很重要,因為AI是一種數據驅動的計算機科學方法。它得從數據里學習,從數字化的經驗里學習,才能學到知識,積累經驗。那么,怎么解決數據問題呢?第二個問題是,怎么才能在沒有人工干預的情況下訓練AI?“人工干預”這事兒挺麻煩的,因為咱們的時間有限,我們又希望AI能學得飛快,比人快得多,而且能學得特別多,多到人根本跟不上。所以,第二個問題就是,怎么訓練模型?

第三個問題是,怎么才能讓AI規模化,不斷擴展?如何創造、如何找到一種算法,使得你提供的資源越多(無論是什么樣的資源),AI就變得越聰明。這就是Scaling Law。然而,在過去的一年里,幾乎全世界都對此產生了誤判。計算需求,也就是AI的Scaling Law,其韌性遠超預期,實際上呈現出超加速增長的態勢。由于Agentic AI,由于推理能力的引入,我們現在所需的計算量,比去年同期我們的預期高出了100倍。讓我們來分析一下這背后的原因。

首先,讓我們從AI能夠做什么入手,然后反向推導。正如我之前提到的,Agentic AI的基礎實際上是推理能力。我們現在所擁有的AI能夠進行推理,這意味著它們可以將一個問題逐步分解。也許,它會嘗試幾種不同的方法來解決問題,然后選擇最佳答案。又或許,它會用多種方式來解決同一個問題,以確保得到一致的最佳答案。這被稱為一致性檢查。再或者,在得出答案之后,它會把答案代入到原始的方程式中——例如一個二次方程式——來驗證答案是否正確,而不是簡單地、一次性地給出結果。還記得兩年前我們剛開始使用ChatGPT的時候嗎?盡管它是一個奇跡,但許多復雜的問題,甚至是許多簡單的問題,它都無法給出正確的答案。這是可以理解的。它只是進行了一次嘗試。基于它通過學習預訓練數據所獲得的知識,基于它從其它經驗、預訓練數據中所看到的內容,它會像一個學者一樣,一次性地給出答案。但現在,我們擁有的AI能夠一步一步地進行推理,這得益于一系列的技術,如思維鏈、一致性檢查,以及各種不同的路徑規劃等技術。現在,我們擁有的AI能夠推理,能夠將問題分解,一步一步地進行推理。

可以想象,這樣一來,我們生成的Token數量,雖然AI的基礎技術仍然是相同的——生成下一個Token,預測下一個Token,但現在的下一個Token構成了第一步,然后是下一個Token,在它生成第一步之后,第一步會再次作為輸入,讓AI生成第二步、第三步和第四步。所以,它不再是簡單地生成一個Token或一個單詞,而是生成一系列的單詞,這些單詞代表著推理的一個步驟。因此,生成的Token數量大幅增加。稍后我會給你們展示具體的數據,現在可以輕松達到100倍的增長。增長了100倍。這意味著什么呢?這意味著,它可以生成100倍的Token。

正如我之前解釋的,這種情況可能會發生,或者是因為模型變得更加復雜,從而生成10倍的Token。而為了保持模型的響應速度和交互性,避免我們因為等待AI思考而失去耐心,我們現在必須將計算速度提升10倍。因此,10倍的Token,10倍的速度。我們所需要的計算量很容易就達到了100倍。所以,你們會在接下來的演示中看到這一點。

2-4

現在,我們進行推理所需的計算量比過去要大得多。那么,接下來的問題就是,我們如何教會AI完成我剛才所描述的任務,如何執行這個思維鏈?一種方法是,你必須教會AI如何推理。正如我之前在關于訓練的部分提到的,我們需要解決兩個基本問題。數據從何而來?以及我們如何避免受到“人工干預”的限制?因為我們能夠提供的數據和進行的演示是有限的。而這正是過去幾年里取得的重大突破。強化學習,以及可驗證的結果。

本質上,這是對AI的一種強化學習,當它嘗試解決一個問題時,一步一步地進行。在人類歷史上,我們已經解決了許多問題,并且知道這些問題的答案。我們知道二次方程的公式以及如何求解。我們知道如何求解勾股定理,知道直角三角形的規則。我們知道許多數學、幾何、邏輯和科學方面的規則。我們有一些益智游戲,我們可以給AI設置一些約束條件,比如數獨之類的游戲,等等。我們有數百個這樣的問題空間,我們可以生成數百萬個不同的例子,讓AI有成百上千次的機會逐步解決問題,同時,我們使用強化學習來獎勵那些表現越來越好的AI。因此,綜合來看,我們有數百個不同的主題,數百萬個不同的例子,數百次的嘗試,每一次嘗試都會產生數萬個Token。把所有這些加在一起,就是為了訓練模型而產生的數萬億個Token。現在,借助強化學習,我們有能力生成海量的Token,還有合成數據生成,其實就是使用一種類似于機器人的方法來訓練AI。這兩項技術的結合,給整個行業帶來了巨大的計算挑戰。你們可以看到,整個行業正在積極應對。

接下來我要向你們展示的是Hopper的出貨量,來自前四大云服務提供商(CSP)。這四大云服務提供商擁有公有云,分別是Amazon、Azure、GCP和OCI。這前四大云服務商,注意,這里面并不包括AI公司,也不包括所有的初創公司和企業。有很多都沒有包括在內,僅僅是這四家。這只是為了讓你們對Hopper的出貨高峰年份以及Blackwell的第一年有一個大致的了解。

2-5

你們可以看到,事實上,AI正在經歷一個拐點。它變得更加有用,因為它變得更聰明了。它能夠進行推理,因此它的應用也更加廣泛。從一個現象就可以看出它的應用越來越廣泛:現在每當你使用ChatGPT的時候,似乎等待的時間越來越長了,但這其實是一件好事。這說明有很多人都在有效地使用它。而訓練這些模型以及進行推理所需的計算量,都出現了巨大的增長。所以,僅僅在一年之內(Blackwell才剛剛開始發貨),你們就可以看到AI基礎設施的驚人增長。與此同時,整個計算領域也反映了這一點。我們現在看到的情況是一直到這個十年的結束,到2030年,我預計數據中心的建設規模將達到一萬億美元。我相當肯定,我們很快就會達到這個數字。

2-6

(紫色部分代表分析師對全球數據中心(包括云服務提供商和企業等)資本支出增長的預測)

有兩種趨勢同時發生。第一種趨勢是,絕大部分的增長可能會被加速。絕大部分的增長可能會被加速。這意味著我們早就知道了,通用計算這條路已經走到頭了,我們需要一種新的計算方法。整個世界正在經歷一場平臺級的轉變,從原來在通用計算機上跑的手工編寫的軟件,轉向在加速器和GPU上跑的機器學習軟件。這種計算方式,可以說,已經越過了那個關鍵的轉折點。現在,我們能看到拐點正在出現,全球的數據中心建設正在發生巨變。所以,第一件事,就是我們的計算方式變了。

第二個是越來越多的人意識到,未來的軟件是需要真金白銀的投入的。這是一個非常重要的概念。在過去,我們寫好軟件,然后在計算機上運行就完事了。但未來不一樣了,計算機會為軟件生成Token。這樣一來,計算機就成了Token的生成器,而不是簡單的文件檢索器。從基于檢索的計算到生成式計算,從老一套的數據中心模式,到構建這些新型基礎設施,我把它們叫做AI工廠。它們就是AI工廠,因為它們只干一件事,那就是生成這些特別厲害的Token,然后我們再把這些Token重新組合成音樂、文字、視頻、研究成果、化學品或者蛋白質,等等。我們把它轉化成各種各樣的信息。

所以,整個世界正在經歷一場變革,不僅僅是信息量、要建設的數據中心數量在變,連怎么建設的方式都在變。數據中心里,所有的東西都會被加速,但不一定都是AI。關于這一點,我想多說幾句。這張幻燈片,是我個人的最愛。為什么這么說呢?因為這么多年來,你們一直都來參加GTC,一直聽我在這里講這些庫。實際上,這就是GTC的核心所在,濃縮在這一張幻燈片里。

2-7

不夸張地說,很久以前,20年前,我們就只有這一張幻燈片。一個庫接著一個庫,不斷地增加。你不能光去加速軟件本身。這就好比,我們需要一個AI框架來創造AI,然后我們去加速這個AI框架。同樣的道理,你也需要物理學、生物學、多物理場,以及各種各樣的量子物理學的框架。你需要各種各樣的庫和框架。我們把它們叫做CUDA X庫,它們是各個科學領域的加速框架。第一個要介紹的庫非常厲害,NumPy是全世界下載量最大、使用最廣泛的Python庫,去年一年就被下載了4億次。CuLitho,是一個計算光刻庫。經過四年多的努力,我們現在已經掌握了處理光刻的整個流程,也就是計算光刻,這是晶圓廠里的第二個工廠。一個是制造晶圓的工廠,另一個是制造用于生產晶圓的信息的工廠。

每個行業,每個擁有工廠的公司,未來都會有兩個工廠。一個是負責生產實際產品的工廠,另一個是負責進行數學計算的工廠。AI工廠,汽車工廠,汽車的AI工廠,智能音箱工廠,還有智能音箱的AI工廠。CuLitho就是我們的計算光刻。臺積電、三星、ASML,以及我們的合作伙伴Synopsys、Mentor,都給予了我們極大的支持。我認為,這個領域現在正處在一個關鍵的轉折點,再過五年,每一個光刻過程,都將在Nvidia的平臺上進行處理。Cuda Arial是我們的5G庫。把GPU變成5G無線電設備,這有什么不可以呢?信號處理可是我們的強項。一旦我們搞定了這個,我們就能在它的基礎上疊加AI。也就是用于RAN的AI,或者我們叫它AI RAN。下一代的無線電網絡,一定會深度嵌入AI。為什么我們現在會被信息論限制住呢?因為我們能獲得的頻譜資源就那么多。但是,如果我們加上AI,情況就完全不同了。Cu OPT是數值優化,或者叫數學優化。幾乎每個行業都會用到它,比如你安排航班座位、管理庫存和客戶、協調工人和工廠、調度司機和乘客等等,總之就是會遇到各種各樣的約束條件。大量的約束,大量的變量,你需要對時間、利潤、服務質量、資源利用率等等進行優化。

Nvidia就用它來管理我們的供應鏈。Cu OPT是一個非常強大的庫。它能把原本需要幾個小時才能完成的任務,縮短到幾秒鐘。這有什么意義呢?這意味著我們現在可以探索一個大的多的解空間。我們已經宣布,將會開源Cu OPT。現在,幾乎所有人都在用Gurobi或者IBM、CPLEX或者FICO。

我們正在和這三家公司緊密合作。整個行業都非常興奮。我們即將為這個行業帶來巨大的加速。Parabricks是用于基因測序和基因分析的。MONAI是全球領先的醫學成像庫。Earth2是用于預測高分辨率局部天氣的多物理場仿真庫。CuQantum和Cuda Q,我們將在GTC上舉辦我們的第一個量子計算日。我們正在和這個生態系統里的幾乎所有人合作,要么幫助他們研究量子架構、量子算法,要么一起構建經典的加速量子異構架構。所以,這方面的工作非常令人興奮。cuTENS0R和相關量子化學加速庫是用于張量收縮和量子化學的。當然了,這個技術棧是世界聞名的。很多人以為只有一個叫做CUDA的軟件,但實際上,在CUDA之上,有一整套的庫,這些庫被集成到了整個生態系統、軟件和基礎設施的方方面面,這樣才能讓AI成為可能。

今天,我還要宣布一個新的成員:cuDss,我們的稀疏求解器。這對于CAE(計算機輔助工程)來說至關重要。這是過去一年里發生的最重要的事情之一。通過與Cadence、Synopsys、Ansys、Dassault,以及所有這些系統公司的合作,我們現在已經讓幾乎所有重要的EDA(電子設計自動化)和CAE庫都實現了加速。說出來你們可能不信,直到最近,Nvidia還一直使用通用計算機,運行著速度非常慢的軟件,來為其他人設計加速計算機。原因就在于,我們之前一直沒有針對CUDA進行優化的軟件。所以,現在隨著我們轉向加速計算,我們的整個行業都將迎來一次巨大的飛躍。CuDf,是用于處理結構化數據的數據框。我們現在已經實現了對Spark和Pandas的嵌入式加速。真是太棒了,然后,我們還有Warp,這是一個用Python編寫的物理庫,是專門為CUDA打造的Python物理庫。關于這個,我們有一個重要的消息要宣布,我先賣個關子,稍后再說。

這里展示的只是一小部分能夠實現加速計算的庫。絕不僅僅只有CUDA。我們為CUDA感到無比自豪,但如果沒有CUDA,沒有我們如此龐大的用戶基礎,這些庫也不會被這么多的開發者所使用。對于所有使用這些庫的開發者來說,你們之所以使用它,首先是因為它能給你們帶來難以置信的加速,能讓你們實現難以置信的規模擴展;其次,是因為CUDA的用戶基礎現在無處不在。它存在于每一個云平臺,每一個數據中心,全世界每一家計算機公司都在提供它。毫不夸張地說,它無處不在。所以,通過使用這些庫中的任何一個,你的軟件,你那些優秀的軟件,就能觸及到每一個人。因此,我們現在已經到達了加速計算的轉折點。CUDA讓這一切成為可能。而你們在座的每一位,這就是GTC的意義所在,整個生態系統,是你們所有人讓這一切成為可能。所以,我們為你們準備了一個小短片。謝謝大家。

向所有的創造者、先行者、未來的建設者們致敬!CUDA為你們而生。自2006年以來,全球超過200個國家和地區的600萬開發者使用了CUDA,并徹底改變了計算領域。憑借著900多個CUDA X庫和AI模型,你們正在加速科學的進步,重塑各行各業,并賦予機器視覺、學習和推理的能力。現在,Nvidia Blackwell的速度比第一代CUDA GPU快了5萬倍。這種數量級的速度提升,以及規模的擴展,正在不斷縮小模擬與現實之間的差距。數字孿生(DigitalTwins)。而對于你們來說,這僅僅是一個開始。我們迫不及待地想看到你們接下來的行動。

我熱愛我們的工作。我更熱愛你們用它所創造的一切。在我這33年的職業生涯中,最讓我感動的一件事,是一位科學家對我說:“Jensen,因為這項工作,因為你的工作,我終于可以在有生之年完成我畢生的事業了。”老天,如果這都不能打動你,那你可真是太麻木了。所以,這一切都是為了你們。謝謝大家。

我們繼續來聊聊AI。AI最初是在云端發展起來的,這是有原因的。因為事實證明,AI需要基礎設施。它是機器學習。既然這門科學叫做機器學習,那你就需要一臺機器來進行科學研究。所以,機器學習需要基礎設施。而云數據中心恰恰擁有基礎設施。他們還擁有非常強大的計算機科學和卓越的研究實力。這是AI在云端和云服務提供商那里蓬勃發展的絕佳條件。但這并不是AI的終點。AI將會無處不在。我們將從多個角度來探討AI。當然了,云服務提供商都喜歡我們的尖端技術。他們喜歡我們擁有全棧的技術體系,因為正如我之前解釋過的,加速計算不僅僅是芯片的事情。甚至不僅僅是芯片、庫和編程模型,而是芯片、編程模型,以及構建在它們之上的一整套軟件。

整個技術棧是非常復雜的。每一層,每一個庫,基本上都類似于SQL。SQL,被稱為存儲計算。它是IBM在計算領域掀起的一場重大革命。SQL僅僅是一個庫。大家可以想象一下,我剛才給你們展示了一大堆庫,而在AI領域,還有更多。所以,這個技術棧是非常復雜的。云服務提供商也喜歡Nvidia CUDA的開發者同時也是他們的客戶,因為歸根結底,他們是在為全世界構建基礎設施。所以,一個繁榮的開發者生態系統是非常有價值的,也是備受贊賞的。現在,我們要把AI推廣到世界各地,而世界各地的情況千差萬別,系統配置不同、操作環境不同、特定領域的庫不同,使用方式也不同。

所以,當AI應用到企業中,IT應用到制造業、機器人技術或者自動駕駛汽車領域,甚至應用到那些剛剛起步的GPU云公司時,有很多這樣的公司,大概有20家,它們都是在Nvidia時代創立的。他們只做一件事,那就是托管GPU,他們把自己叫做GPU云。我們的一個重要合作伙伴Core Weave正在準備上市,我們為他們感到非常驕傲。所以,GPU云有他們自身的需求。但其中一個讓我非常感興趣的領域是邊緣計算。

2-8

今天,我們宣布,Cisco、Nvidia、T-Mobile,這家全球最大的電信公司,以及Cerberus ODC,將要為美國的無線電網絡構建一個全棧的技術體系。這將是第二個技術棧。所以,我們今天宣布的這個技術棧,將會把AI引入到邊緣計算領域。大家要記住,全球每年有1000億美元的資本投資于無線電網絡和所有用于未來通信的數據中心,毫無疑問,這些投資都將轉向采用融入了AI的加速計算。AI肯定能在調整無線電信號、大規模MIMO,使之適應不斷變化的環境和交通狀況方面,做得更好。當然,我們會利用強化學習來實現這一點。MIMO本質上就是一個巨大的無線電機器人。這是毋庸置疑的。所以,我們當然會提供這些能力。AI無疑會給通信領域帶來革命性的變化。大家想想,平時我給家里打電話的時候,不用多說什么,就幾個字,因為我妻子知道我在哪兒工作,工作狀態怎么樣,我們的話題可以接著昨天繼續聊,她大概也記得我喜歡什么、不喜歡什么,通常只需要幾個字,就能表達很多信息。之所以這樣,是因為存在著上下文,以及人類的先驗知識。如果把這些能力結合起來,就能給通信領域帶來翻天覆地的變化。看看它在視頻處理方面所取得的成就。再看看我剛才所描述的3D圖形。所以,我們當然也會在邊緣計算領域做同樣的事情。

因此,我對我們今天宣布的消息感到非常興奮。T-Mobile、Cisco、Nvidia、Cerberus、ODC將會一起構建一個全棧的技術體系。AI將會進入到各行各業。這僅僅是其中之一。AI最早進入的領域之一就是自動駕駛汽車。當年我第一次看到Alexnet的時候,我們已經在計算機視覺領域耕耘了很長時間。看到Alexnet的那一刻,真是令人振奮,非常激動人心。這促使我們下定決心,要全力以赴地投入到自動駕駛汽車的研發中。所以,我們從事自動駕駛汽車的研發已經有十多年了,我們開發的技術幾乎每一家自動駕駛汽車公司都在使用。這些技術可能應用在數據中心里。例如,特斯拉在數據中心里使用了大量的Nvidia GPU。也可能應用在數據中心或者汽車里。Waymo和Zoox在數據中心和汽車里都使用了我們的計算機。也可能僅僅應用在汽車里。這種情況比較少見,但有時候確實只應用在汽車里,或者他們會使用我們的所有軟件。

此外,我們和汽車行業也有合作。更準確地說,汽車行業希望和我們合作。我們打造了三種計算機:訓練計算機、模擬計算機和機器人計算機,也就是自動駕駛汽車的計算機。還有運行在這些計算機之上的所有軟件、模型和算法。這和我之前展示的其他所有行業的情況是一樣的。

今天,我非常高興地宣布,通用汽車選擇了Nvidia作為合作伙伴,一起來打造他們未來的自動駕駛汽車車隊。自動駕駛汽車的時代已經到來了,我們期待著與通用汽車在三個領域展開AI方面的合作:制造領域的AI,用來革新他們的制造方式;企業級AI,用來革新他們的工作方式、汽車設計和汽車模擬;以及車內AI。為通用汽車構建AI基礎設施,與通用汽車攜手合作,共同打造他們的AI。

2-9

我對此感到非常興奮。有一個領域我感到非常自豪,但很少有人關注到,那就是汽車安全,我們稱之為Halos。安全這項工作,需要從芯片到整個系統的全方位技術。系統軟件、算法、方法論,從多樣性到確保多樣性、監控、透明度、可解釋性等等,所有這些不同的理念都必須深深地融入到你開發系統和軟件的每一個環節。我相信,我們是全球第一家對每一行代碼都進行安全評估的公司。七百萬行代碼都經過了安全評估。我們的芯片、我們的系統、我們的系統軟件,以及我們的算法,都經過了第三方的安全評估,他們會逐行檢查代碼,以確保其設計能夠保證多樣性、透明度和可解釋性。我們還申請了1000多項專利,在這次GTC期間,我強烈建議大家去參加Halos的研討會,親眼看看所有這些技術是如何融合在一起,來確保未來的汽車既安全又能夠實現自動駕駛的。這是我感到非常自豪的一件事情。但很少有人關注到這一點,所以這次我想多花點時間來聊聊這個話題。好的,Nvidia Halos。你們都見過汽車自動駕駛的場景。Waymo的無人駕駛出租車非常棒。但是,我們制作了一段視頻,想和大家分享一下我們用來解決數據、訓練和多樣性問題的一些技術,這樣我們就可以利用AI的魔力來創造AI。讓我們一起來看看。

Nvidia正在利用Omniverse和Cosmos來加速自動駕駛汽車(AVs)的AI開發。Cosmos的預測和推理能力為AI優先的AV系統提供了支持,這些系統可以通過新的開發方法、模型蒸餾、閉環訓練和合成數據生成來實現端到端的訓練。首先,模型蒸餾被用作一種策略模型。Cosmos的駕駛知識從一個速度較慢、但更智能的“老師”(這里指的是一個性能更好但速度較慢的模型)那里,遷移到一個更小、更快的“學生”(這里指的是一個需要部署到車端的模型)那里,并在車端進行推理。

老師的策略模型展示了最佳的行駛軌跡,學生模型通過反復迭代學習來模仿這條軌跡,直到它的表現幾乎與老師的模型相同。蒸餾過程可以快速啟動一個策略模型,但復雜的路況需要進一步的微調。閉環訓練可以對策略模型進行微調。日志數據會被轉換成3D場景,然后在基于物理的模擬環境中,利用Omniverse神經重建來進行閉環駕駛,創建這些場景的不同版本,來測試模型的軌跡規劃能力。

然后,Cosmos行為評估器可以對生成的駕駛行為進行評分,來評估模型的性能。新生成的場景以及它們的評估結果,會創建一個用于閉環訓練的大型數據集,幫助自動駕駛汽車更穩定可靠地應對復雜的路況。

最后,3D合成數據生成增強了自動駕駛汽車對不同環境的適應能力。Omniverse根據日志數據,通過融合地圖和圖像,構建出細節豐富的4D駕駛環境,并生成真實世界的數字孿生,包括通過對每個像素進行分類來指導Cosmos進行語義分割。然后,Cosmos通過生成準確且多樣化的場景來擴展訓練數據,從而縮小模擬環境和真實環境之間的差距。Omniverse和Cosmos使自動駕駛汽車能夠學習、適應并智能地駕駛,從而推動實現更安全的出行。

Nvidia就是干這個的。這是我們的使命:用AI來創造AI。我們剛才給你們展示的那些技術,跟你們現在正在體驗的、把你們帶入到我們稱之為Nvidia的數字孿生世界的那些技術,非常相似。好了,咱們來聊聊數據中心。Blackwell已經全面投產了,就是這個樣子。真是太了不起了。你們知道嗎,對于我們來說,這簡直就是一件藝術品。你們覺得呢?這可是一件大事,因為我們在計算機架構上實現了一個根本性的轉變。

實際上,大概三年前,我給你們展示過一個類似的版本。它叫做 Grace Hopper,整個系統叫做 Ranger。Ranger 系統大概有屏幕一半那么寬。它是世界上第一個 NVLink。三年前,我們展示了 Ranger 的運行效果,但是它太大了。不過,我們的思路是完全正確的。我們當時想要解決的就是擴展性的問題。橫向擴展的分布式計算,簡單來說,就是用一大堆不同的計算機一起工作,來解決一個特別大的問題。

2-10

但是在進行橫向擴展之前,縱向擴展是必不可少的。兩者都很重要,但是你得先進行縱向擴展,然后再進行橫向擴展。縱向擴展非常困難,沒有那么容易的解決方案。你不能像用 Hadoop 那樣去進行縱向擴展或者橫向擴展。弄一堆普通的計算機,把它們連接到一個大型網絡里,然后用 Hadoop 來進行存儲計算。大家都知道,Hadoop 是一個革命性的想法,它讓超大規模的數據中心能夠解決海量的數據問題,而且通常使用的都是現成的計算機。然而,我們現在要解決的問題實在是太復雜了,如果用 Hadoop 那種方式來進行擴展,會消耗掉太多的電力和能源。那樣的話,深度學習就根本不可能實現了。所以,我們必須要做的就是首先進行縱向擴展。這就是我們進行縱向擴展的方式。我可搬不動這個大家伙。它足足有 70 磅重(約 31.8 公斤)。這是上一代的產品。整個系統的架構叫做 HGX。它徹底改變了我們所熟知的計算。它徹底改變了AI。

這里面有八個 GPU。每一個 GPU 都跟這個差不多。大家看,這是兩個 GPU,兩個 Blackwell GPU 被封裝在一個 Blackwell 芯片里面。這個下面有八個這樣的封裝。它會連接到我們稱之為 NVLink8 的這個東西上。然后,它再連接到像那樣的 CPU 托架上。

所以這里有兩個 CPU,位于整個系統的頂部。我們通過 PCI Express 來連接它們。然后,其中有很多個會通過 InfiniBand 連接起來,最終形成一個 AI 超級計算機。

2-11

過去是這樣的。這就是我們一開始的方案。這就是我們在進行橫向擴展之前,所能達到的縱向擴展的極限。但是我們希望能夠進一步地進行縱向擴展。我之前跟大家說過,Ranger 這個系統,在之前的基礎上又進行了橫向擴展,更確切地說,是縱向擴展了四倍。我們當時有了 NVLink32,但是整個系統實在是太大了。所以,我們必須要做一些非常了不起的事情。那就是重新設計 NVLink 的工作方式,以及縱向擴展的方式。我們做的第一件事,就是,我們意識到,這個系統中的 NVLink 交換機是嵌入在主板上的。我們需要把 NVLink 系統解耦出來,把它單獨拿出來。這就是 NVLink 系統。

大家看,這是一個 NVLink 交換機。這是目前世界上性能最強的交換機。它能夠讓每一個 GPU 都能夠同時以全帶寬和其他所有的 GPU 進行通信。這就是 NVLink 交換機。我們把它解耦出來,把它單獨拿出來,然后放到了整個機箱的中央。這里一共有 18 個這樣的交換機,分布在九個不同的機架里面,我們把它們叫做交換機托盤。然后,這些交換機是相互獨立的。計算單元現在位于這里。它的計算能力相當于之前那兩個部分的計算能力。最厲害的是,這是完全液冷的。通過液冷技術,我們能夠把所有這些計算節點都壓縮到一個機架里面。這是整個行業的一個重大變革。在座的各位,我知道你們來了很多人。我要感謝你們,和我們一起實現了從集成的 NVLink 到解耦的 NVLink、從風冷到液冷的這一根本性的轉變。從每臺計算機大約 60,000 個組件,到每個機架 600,000 個組件。20 千瓦全液冷。這樣一來,我們就在一個機架里面實現了一臺 Exaflops 級別的超級計算機。這難道不令人驚嘆嗎?這就是計算節點。

2-12

現在,它可以被安裝到其中一個機架里面。3,000 磅(約 1360 千克)重,5,000 根線纜,長度大約有兩英里。這真是一個令人難以置信的電子設備。600,000 個零部件。我覺得這相當于 20 輛汽車的零部件。把 20 輛汽車的零部件集成到一臺超級計算機里面。我們的目標就是要實現這一點。我們的目標就是要進行縱向擴展。這就是它現在的樣子。我們本質上是想要構建這樣一塊芯片。但是,沒有任何光刻掩膜版的尺寸限制能夠允許我們這樣做。沒有任何現有的工藝技術能夠做到這一點。它擁有 130 萬億個晶體管。其中有 20 萬億個晶體管是用于做冗余計算的。所以,在短期之內,你根本不可能合理地制造出這樣的芯片。

要解決這個問題,方法就是把它進行解耦,就像我剛才描述的那樣,把它分解成 Grace Blackwell NVLink 72 機架。但最終的結果是,我們完成了終極的縱向擴展。這是世界上有史以來最極端的縱向擴展。這里能夠實現的計算量、內存帶寬(高達 570 TB/秒),這臺機器里的一切現在都是以 T(萬億)為單位的。你擁有了一個 Exaflops,也就是每秒一百萬萬億次的浮點運算能力。我們之所以要這樣做,是為了解決一個極端的問題。

很多人誤以為這個問題很簡單,但實際上,這是最極端的計算問題。它叫做推理。原因很簡單。推理就是一個工廠生產 Token 的過程。而工廠是用來產生收入和利潤的,或者說,是會產生虧損的。所以,這個工廠必須以極高的效率和極高的性能來建造。因為這個工廠里的一切,都會直接影響到你的服務質量、你的收入和你的盈利能力。我來給大家解釋一下這張圖表怎么看,因為我一會兒還會再回到這張圖表。

基本上,這里有兩個坐標軸。X 軸是每秒鐘生成的 Token 數量。每當你進行聊天的時候,當你向 ChatGPT 輸入一個提示 的時候,它輸出的就是 Token。這些 Token 會被重新組合成單詞。每個單詞可不止一個 Token。它們會把“the”這樣的詞進行 Token 化,它可以用于“the”、“them”、“theory”、“theatrics”等等各種情況。“the”就是一個 Token 的例子。他們會把這些 Token 重新組合成單詞。我們已經確定了,如果你想讓你的 AI 變得更聰明,你就需要生成大量的 Token。

這些 Token 包括推理 Token、一致性檢查 Token,以及提出一大堆想法,然后從中選擇最佳方案的 Token。所以,這些 Token,它可能是在進行自我反思,這是否是我能做的最好的工作?所以它會像我們平時自言自語一樣,跟自己對話。你生成的 Token 越多,你的 AI 就越聰明。但是,如果你回答一個問題花了太長的時間,客戶就不會再來了。這和網頁搜索是一個道理。在返回一個智能的答案之前,它能夠花費的時間是有限度的。所以,你就會面臨這兩個相互制約的維度。你一方面想要生成大量的 Token,但另一方面,你又希望能夠盡快地完成。所以,你的 Token 生成率就非常重要。你希望每一個用戶每秒鐘能夠獲得的 Token 數量越多越好。

2-13

然而,在計算機科學和工廠運營中,延遲、響應時間和吞吐量之間存在著一個根本性的矛盾。原因很簡單。如果你從事的是大批量的業務,你會進行批量處理,這叫做批處理。你把大量的客戶需求集中起來,然后生產出一個特定的版本,供所有人稍后使用。然而,從批量生產開始,到你最終使用,這中間可能會間隔很長的時間。所以,這對于計算機科學來說是一樣的,對于生成Token 的 AI 工廠來說也是一樣的。所以,你面臨著這兩個基本的矛盾。一方面,你希望客戶的服務質量能夠盡可能地好,希望 AI 能夠非常智能,而且響應速度要快。另一方面,你又希望你的數據中心能夠為盡可能多的人生產 Token,這樣你才能最大化你的收入。最理想的狀態是右上角。理想情況下,這條曲線的形狀應該是一個正方形,這樣你就可以為每一個用戶快速地生成 Token,一直到達到工廠的極限為止。但是,沒有任何工廠能夠做到這一點。所以,它可能是一條曲線。你的目標是最大化曲線下面的面積,也就是 X 和 Y 的乘積。你向外擴展得越多,通常就意味著你正在建造的工廠越好。

2-14

事實證明,對于整個工廠的每秒 Token 數,以及響應時間的每秒 Token 數而言,其中一個需要巨大的計算量,而另一個維度則需要巨大的帶寬和計算量。所以,這是一個非常難以解決的問題。一個比較好的解決思路是,你應該擁有大量的 flops、大量的帶寬、大量的內存,大量的各種資源。這是最好的出發點,這也是為什么這是一臺如此出色的計算機的原因。你從盡可能多的 flops、盡可能多的內存、盡可能多的帶寬開始,當然,還有最好的架構、最高的能效,而且你必須擁有一個編程模型,能夠讓你運行各種軟件,所有這些都非常困難,這樣你才能實現最終的目標。現在,讓我們來看一下這個演示,讓大家對我們正在討論的內容有一個更直觀的感受,請播放視頻。

傳統的大語言模型具備基礎知識,而推理模型則利用思維 Token來解決復雜的問題。這里有一個例子,要求在滿足特定約束條件——比如遵循傳統、考慮拍照角度以及處理家庭成員間的矛盾——下來為一個婚禮宴會安排座位。傳統的 LLM 可以在 500 個 Token 內迅速給出答案,但可能會出錯。而推理模型則需要思考超過 8000 個 Token 才能得出正確答案。這就好比需要一位牧師來維持現場秩序一樣。

各位,大家都知道,如果你要為一個 300 人的婚禮安排座位,想找到一個完美的,或者說最佳的方案,這事兒通常只有 AI 或者新娘的母親才能搞定。合作模式 (co-op) 在這種情況下是行不通的。大家可以看到,我們給模型提出了一個需要推理的問題。R1 開始運行,它進行各種推理,嘗試不同的方案,然后回過頭來檢驗自己的答案,判斷自己做得對不對。與此同時,上一代的大語言模型采用的是單次生成的方式,只用了 439 個 Token。它速度是挺快,看起來也挺有效,但結果卻是錯的。這 439 個 Token 就白白浪費掉了。另一方面,如果要對這個問題進行充分的推理——實際上這還是一個相對簡單的問題,如果我們加入更多更復雜的變量,那推理的難度可就大大增加了。最終,推理模型使用了將近 9000 個 Token,而且由于模型本身的復雜性,計算量也更大了。這是一個方面。

在給大家展示具體結果之前,我先來解釋一下其他方面。對于這個問題的答案,咱們來看一下 Blackwell 系統,以及現在已經規模化的 NVLink 72。首先,我們需要用到這個模型。這個模型可不小,比如說 R1 吧,大家可能覺得它小,但實際上它有 6800 億個參數。而下一代的模型,參數可能會達到數萬億。要解決這個問題,辦法就是把這數萬億的參數,或者說整個模型的工作負載,給它分散到整個 GPU 系統里去。可以采用張量并行,把模型的某一層放到多個 GPU 上去跑;也可以采用管道并行,把整個流程中的一部分切出來,放到多個 GPU 上去;還可以采用專家并行,把不同的專家模型部署到不同的 GPU 上。這三種并行方式——管道并行、張量并行和專家并行——組合起來的數量非常龐大。而根據具體的模型、工作負載和實際情況,我們需要靈活地調整計算機的配置,來達到最大的吞吐量。

有時候,我們需要優化來獲得極低的延遲,有時候呢,我們需要優化吞吐量。這就需要用到一些動態批處理的技術,以及其他各種用來做批處理和聚合工作的技術。所以說,這些 AI 工廠的軟件,或者說操作系統,那是相當復雜的。這里有一個非常重要的觀察結果,像 NVLink72 這樣的同構架構,它有一個巨大的優勢,那就是每一個 GPU 都可以執行我剛才說的所有這些操作。我們觀察到,這些推理模型在計算的過程中會經歷好幾個不同的階段。其中一個階段就是思考。在思考的階段,模型不會產生大量的 Token,它產生的 Token 可能是給自己用的。模型在思考,可能是在閱讀,在消化信息。這些信息可能是一個 PDF 文件,可能是一個網站,甚至可能是一段視頻,模型以超線性的速度把這些信息都給吸收進來。

然后,模型把所有這些信息匯總起來,形成一個答案,或者說一個計劃好的答案。所以說,這種信息消化和上下文處理的過程需要大量的浮點運算。接下來的階段叫做解碼 (decode)。我們把第一部分叫做預填充。解碼階段同樣需要浮點運算,但更重要的是,它需要極高的帶寬。如果一個模型有數萬億個參數,那么很容易就能算出來,它每秒需要好幾個 TB 的帶寬。我之前提到過每秒 576 TB,僅僅是從 HBM 顯存里頭把模型讀出來,然后生成一個 Token,就需要每秒好幾個 TB 的帶寬。為什么每次只生成一個 Token 呢?這是因為這些大語言模型是在預測下一個 Token。這就是為什么我們說“下一個 Token”,它不是預測每一個 Token,它是在預測下一個 Token。

現在我們有各種各樣的新技術,比如說推測解碼  等等,可以加速這個過程。但歸根結底,模型還是在預測下一個 Token。模型會讀取整個模型和上下文(我們把它叫做 KV 緩存,KV cache),然后生成一個 Token。接下來,模型把這個 Token 再放回去考慮,生成下一個 Token,就這么循環往復。每一次循環,模型都需要讀取數萬億個參數,生成一個 Token;再讀取數萬億個參數,生成另一個 Token;就這么不斷地重復。在剛才的演示里,我們生成了 8600 個 Token。這意味著數萬億字節的信息被輸入到 GPU 里頭,每次只產生一個 Token。這也就是為什么我們特別需要 NVLink 的根本原因。

NVLink 能讓我們把所有這些 GPU 整合起來,變成一個巨無霸,實現終極的規模擴展。其次,因為現在所有的資源都通過 NVLink 連起來了,我們就可以把預填充和解碼這兩個過程給它分開,根據需要,把更多的 GPU 用在預填充上,少一點的 GPU 用在解碼上。因為模型需要進行大量的思考,作為一個 AI Agent,它需要閱讀大量的信息,做深度的研究。大家可以回想一下深度研究的過程。我之前聽到 Michael 談到他做研究的方式,我也會做類似的事情。

我們會為我們的 AI 啟動一些非常龐大的研究項目。我很喜歡這種方式,因為我已經為硬件付過錢了,我非常樂意讓我們的 GPU 全力工作,這能給我帶來極大的樂趣。我會寫點兒東西,然后 AI 就開始進行各種各樣的研究,它可能會訪問 94 個不同的網站,把所有的信息都讀一遍。我呢,也在讀這些信息,AI 會根據這些信息形成一個答案,然后寫出一份報告。這簡直太棒了。

在整個過程里,預填充階段特別忙,但實際上并沒有生成很多的 Token。另一方面,當你在跟聊天機器人聊天的時候,幾百萬的用戶同時都在做類似的事情,那 Token 生成的需求量就會非常大,也就是說解碼的負載會非常重。所以,根據不同的工作負載,我們可能會決定把更多的 GPU 用在解碼上,或者把更多的 GPU 用在預填充上。這種動態調整的操作,那是非常復雜的。

剛才我已經給大家介紹了管道并行、張量并行、專家并行、動態批處理、推理任務的分解以及工作負載管理。另外,我還需要處理 KV 緩存,把它路由到正確的 GPU 上去,還得管理它在整個內存層級結構里頭的流動。這部分軟件的復雜程度,那是相當高的。所以,今天我們正式發布 Nvidia Dynamo。

2補

Nvidia Dynamo 負責處理所有這些復雜的工作,它本質上就是 AI 工廠的操作系統。過去,我們運行數據中心,用的操作系統跟VMware 差不多。我們會編排——現在也還是這樣,我們是一個大用戶——我們會編排大量的企業級應用,讓它們在我們的企業 IT 基礎設施上跑起來。但是在未來,應用不再是傳統的企業 IT 應用了,而是 AI Agent;操作系統也不再是 VMware 之類的了,而是 Dynamo。這個操作系統將運行在 AI 工廠之上,而不是傳統的數據中心之上。

我們把它叫做 Dynamo,這是有深刻含義的。大家都知道,Dynamo 是開啟上一次工業革命,也就是能源革命的關鍵設備。水流進發電機,電力就這么產生了。通過水流,或者點燃燃料,把水燒開了產生蒸汽,驅動發電機,最終輸出的是電力這種看不見、摸不著,但是極具價值的能量。之后又過了差不多 80 年,才發展出交流電。但是 Dynamo,正是一切的開端。

所以,我們把這個操作系統,這個復雜得不得了的軟件,叫做 Nvidia Dynamo。它是開源的,完全公開。我們非常高興能有這么多的合作伙伴跟我們一起來開發它。其中,我最喜歡的合作伙伴之一,Perplexity,我非常欣賞他們,不光是因為他們做的那些開創性的工作,還因為 Aravin 真的是一個非常棒的人。Perplexity 在這個項目上跟我們是緊密合作。現在,我們需要等基礎設施擴展完成,但與此同時,我們已經做了很多很多的模擬,非常深入。我們用超級計算機來模擬我們的超級計算機,這完全是合情合理的。現在,我要給大家展示一下,我前面講的這些技術都能帶來什么好處。大家請回憶一下工廠的示意圖。

2-15

在圖上,縱坐標 (Y 軸) 表示整個工廠每秒鐘能生成的 Token 數量,橫坐標 (X 軸) ,表示用戶體驗到的每秒 Token 數量。我們的目標是構建超級智能的 AI,并且實現大規模的部署。這個是 Hopper 的性能曲線。Hopper 能夠為每一個用戶提供大概每秒鐘 100 個 Token 的生成速度。這是由 8 個 GPU 通過 InfiniBand 連接起來的一個系統。我把性能標準化成了每兆瓦每秒的 Token 數。這是一個 1 兆瓦的數據中心,對于 AI 工廠來說規模不算大哈,但我們先以 1 兆瓦為例。在這個規模下,Hopper 可以為每個用戶提供每秒 100 個 Token 的生成速度,整個 1 兆瓦的數據中心每秒可以生成 10 萬個 Token。或者,如果進行大規模的批處理,并且用戶愿意等比較長的時間,那么整個 AI 工廠每秒可以生成大概 250 萬個 Token。Hopper 的吞吐量是 250 萬。

這是個什么概念?250 萬意味著什么?怎么去理解這個數字?大家可以回想一下,ChatGPT 的價格大概是每 100 萬個 Token 10 美元,對吧?每 100 萬個 Token 10 美元。咱們先假設一下,我覺得每 100 萬個 Token 10 美元的價格大概在這個位置 (圖表較低的位置)。我估計它應該在這個位置,但咱們不妨假設它在更高的位置 (圖表較高位置)。250 萬乘以 10,就是每秒 2500 萬美元。或者,如果價格在比較低的這個位置,那就是 10 萬,除以 10,也就是每個工廠每秒 25 萬美元。一年有 3153.6 萬秒,把這個數字乘以每秒的收入,就能估算出這個 1 兆瓦數據中心一年的收入。這就是我們的目標。

一方面,我們希望 Token 的生成速度越快越好,這樣才能構建真正智能的 AI。如果 AI 足夠智能,用戶就愿意掏更多的錢。另一方面,AI 越智能,單個請求需要的計算量就越大,所以在總的吞吐量上就會有所下降。這是一個非常合理的權衡。我們現在要做的,就是改進這條曲線。

我現在給大家展示的,是目前世界上最快的計算機,Hopper,它曾經引領了一場革命。那么,我們怎么才能更上一層樓?首先,我們推出了 Blackwell,還有 NVLink8。同樣的 Blackwell 芯片,同樣的計算節點,配上 NVLink8,用的是 FP8 精度。Blackwell 就是更快,規模更大,晶體管更多,所有方面都有提升。但我們希望更進一步。所以,我們引入了一種新的精度。雖然它并不完全等同于 4 位浮點數,但是通過用 4 位浮點數,我們可以對模型進行量化,從而降低能耗,用更少的能量來完成同樣的工作。這樣一來呢,因為完成同樣的任務需要的能量少了,我們就能完成更多的工作。

大家要記住,一個很重要的理念就是,未來所有的數據中心都會受到功率的限制。你的收入會受到功率的限制。你可以根據你能用到的功率來估算你的收入。這跟其他很多行業的情況是一樣的。所以,我們現在所處的,是一個功率受限的行業。我們的收入會跟這個直接相關。

正因為這樣,我們需要確保我們擁有能效最高的計算架構。接下來,我們通過 NVLink72 來進行擴展。大家注意看 NVLink72 和 FP4 精度下的 Blackwell 之間的性能差別。由于我們的架構是高度集成的,現在我們又增加了動態特性,Dynamo 可以進一步提升性能。Dynamo 對 Hopper 也有幫助,但是它對 Blackwell 的提升尤其明顯。

2-16

大家注意看我標出來的這兩個亮點,這差不多就是系統的“最佳工作點”。這很可能就是你運行工廠時候的最佳狀態。你需要在這兩者之間找到一個平衡:最大的吞吐量和 AI 的最高質量。最智能的 AI,還有最大規模的部署,這兩個指標的交匯點,才是我們真正需要去優化的目標。

如果我們把這兩個方框給它放大,這就是 Blackwell 和 Hopper 的詳細對比。Blackwell 的性能遠遠好于 Hopper。大家要記住,這不是在芯片數量相同的情況下的對比,而是在功耗相同的情況下的對比。這是終極的摩爾定律,這才是摩爾定律一直以來真正的含義。現在,在同樣的功耗下,Blackwell 的性能提升了 25 倍,這不是芯片數量一樣,也不是晶體管數量一樣,而是功耗一樣,這是最終的限制因素。我們能給數據中心提供的能源是有限的。所以,在同樣的功耗下,Blackwell 實現了 25 倍的性能提升。

2-17

現在,大家看到的是“性能彩虹圖”。這非常了不起,也是最有意思的部分。大家可以看到各種各樣的配置,在帕累托前沿曲線 (Pareto Frontier)下面有幾百萬種可能的數據中心配置方式。我們可以用各種不同的方式來分配工作負載,進行并行化和分片。我們找到了最佳的解決方案,也就是這個帕累托前沿。帕累托前沿上的每一個點,都對應著一種不同的配置,用不同的顏色來表示。

這表明,我們需要一個可編程的架構,而且這個架構要盡可能地具有同構性和可替代性,因為在整個帕累托前沿上,工作負載的變化非常劇烈。大家看,在圖的最上邊,我們有專家并行度是 8,批處理大小是 3000,分解關閉,Dynamo 關閉的配置。在圖的中間,專家并行度是 64,其中 26% 用來做上下文處理。也就是說,Dynamo 打開,26% 的資源用來做上下文處理,剩下的 74% 用來做非上下文處理/解碼,批處理大小是 64,專家并行度分別是 64 和 4。在圖的最下邊,我們有張量并行度是 16,專家并行度是 4,批處理大小是 2,上下文占比 1% 的配置。在整個范圍內,計算機的配置都在不斷地變化。

接下來,我們來看一下輸入序列長度的影響。這是一個常用的測試場景。這是一個比較容易進行基準測試的場景。輸入序列長度是 1000 個 Token,輸出序列長度是 2000 個 Token。大家注意,我們之前展示的那個演示里,輸出序列長度高達 9000 個 Token,甚至 8000 個 Token。很明顯,這個測試場景不能完全代表之前的那個聊天示例。但這個場景更有代表性。我們的目標是為下一代的工作負載構建下一代的計算機。這有一個推理模型的例子,在這個推理模型里,Blackwell 的性能是 Hopper 的 40 倍!這是一個非常驚人的提升。

我之前說過等 Blackwell 開始大規模出貨的時候,Hopper 估計就白送都沒人要了。我指的就是這個。如果有人還在考慮買 Hopper,別擔心,沒關系的。但我是“首席收入終結者”,我的銷售團隊會說:“別這么說” 有些情況下,Hopper 還是夠用的。這是我對 Hopper 能說的最好的一句話了。如果讓我大膽猜一下的話,適用的情況不多。這就是我想表達的觀點。

當技術發展得這么快,工作負載這么重,而且你正在構建這些 AI 工廠的時候,我們真的希望你投資到正確的版本上。為了讓大家更直觀地了解,這是一個 100 兆瓦工廠的對比。基于 Hopper,你需要 45000 個芯片,1400 個機架,每秒可以生成 3 億個 Token。而基于 Blackwell 呢,你只需要 86 個機柜!是啊,我知道,這看起來不合常理。我們不是想少賣給你們,我們的銷售團隊會說:“Jensen,你這是在減少銷量,但 Blackwell 更好。”

總之,你買的越多,省的就越多。現在情況甚至更好了,你買的越多,賺的就越多!大家要記住,一切都要放在 AI 工廠的背景下來考慮。雖然我們一直在說芯片,但實際上,我們始終是從整體的規模出發的。我們說芯片,但出發點始終是整體的規模,是能夠擴展到的最大的規模。

2-18

現在,我想給大家展示一下 AI 工廠的實際的樣子。但是 AI 工廠實在是太復雜了。我剛才只是舉了一個機架的例子,它里頭有 60 萬個零件,重量達到了 3000 磅。現在,我們需要把這個機架跟其他很多的機架連起來。所以,我們開始構建所謂的“數字孿生”,也就是每一個數據中心的數字孿生。在建數據中心之前,你必須先建一個數字孿生。來看一下,這真是太漂亮了。

當前,全球各國都在競相建設最先進的大規模 AI 工廠。建設 AI 超級工廠是一項非凡的工程壯舉,它需要來自供應商、建筑師、承包商和工程師等數萬名工作人員的共同努力,來建造、運輸和組裝近 50 億個組件,以及超過 20 萬英里的光纖——這個距離幾乎相當于從地球到月球的距離。Nvidia OMniverse 藍圖為 AI 工廠的數字孿生提供了有力支持,使我們能夠在實際建設開始之前很久,就對這些 AI 工廠進行超前的設計和優化。

今天,Nvidia 的工程師們正在使用該藍圖來規劃一個 1 吉瓦的 AI 工廠,該工廠集成了最新的 Nvidia DGX 超級計算集群 的 3D 和布局數據、來自 Vertiv 和 Schneider Electric 的先進電源和冷卻系統、以及來自 Nvidia air 的優化拓撲結構。Nvidia air 是一個用于模擬網絡邏輯、布局和協議的框架。傳統模式下,這項工作通常是在各自獨立的部門中完成的。

而 Omniverse 藍圖使我們的工程團隊能夠并行協作,從而探索各種不同的配置方案,以最大化總體擁有成本 (TCO) 和電能利用率。Nvidia 使用由 CUDA 和 Omniverse 庫加速的 Cadence Reality 數字孿生來模擬空氣和液體冷卻系統,并使用 Schneider Electric 的 eTap (電力系統仿真分析軟件) 來模擬電源轉換效率和可靠性。實時模擬使我們能夠在幾秒鐘內完成迭代并運行大規模的假設情景,而無需花費數小時的時間。我們利用數字孿生技術向龐大的團隊和供應商傳達指令,從而減少執行錯誤,加快項目啟動時間。此外,在規劃設備改造或系統升級時,我們可以輕松地測試和模擬成本及停機時間,從而確保我們的 AI 工廠能夠適應未來的需求。 

這是有史以來第一次有人建造這樣的數據中心,真是太美了,各位,我必須要加快速度了,因為我有很多內容要和大家分享。首先,讓我們來看一下我們整體的路線圖。目前,我們正在全力生產 Blackwell 系列產品,全球各地的計算機公司都在大規模部署這些性能驚人的機器。我感到非常高興,也十分感謝大家為過渡到這一全新架構所付出的巨大努力。今年下半年,我們將順利過渡到升級版本——Black Wall Ultra NVLink 72。它的浮點運算能力提升了 1.5 倍,擁有全新的注意力指令集,內存容量也增加了1.5 倍。增加的這些內存對于 KV cache 等應用非常有幫助。它的網絡帶寬也翻了一番。因此,由于我們采用了相同的底層架構,大家可以非常平滑地過渡到新版本。這就是 Blackwell Ultra,它將在今年下半年正式推出。

2-19

我們之所以如此迅速地推進產品更新,背后是有原因的,這是我所知道的唯一一個產品發布會,在座的每一位都會說“好的,請繼續介紹下一個”。事實上,這正是我所期望得到的反應。原因在于,我們正在建設的是 AI 工廠和 AI 基礎設施,這需要長達數年的規劃。這和購買筆記本電腦不一樣,不是那種可以隨意支配的開銷,而是我們必須提前進行周密規劃的。我們必須規劃場地、電力供應,準備好資本支出,召集工程師團隊,并且需要提前兩到三年進行整體布局。這就是為什么我會提前兩三年向大家展示我們的路線圖,以免我們在五月份突然宣布新產品,讓大家感到措手不及。

比如,“下個月我們就要遷移到一個全新的、性能超強的系統”。稍后我會給大家舉一個例子來說明。我們計劃在未來幾年內陸續推出新品,明年將要推出的產品是以一位杰出的天文學家的名字命名的。她的孫輩們今天也來到了現場。她的名字是 Vera Rubin,她發現了暗物質。Vera Rubin 這一產品系列非常了不起,因為它的 CPU 是全新設計的,性能是 Grace 的兩倍,擁有更大的內存和帶寬,但功耗卻只有 50 瓦。這真的是非常了不起。Rubin 采用了全新的 GPU、CX9、全新的網絡、smart NIC、NV link 6、全新的 MV link、全新的內存 HBM4。基本上除了機箱之外,所有的組件都是全新的。這樣一來,我們就可以在一個方向上大膽地承擔技術風險,而不必擔心與基礎設施相關的其他風險。Vera Rubin MVLink144 將于明年下半年正式推出。

2-20

關于這一點,我之前犯了一個錯誤,需要大家和我一起來做一個調整。Blackwell 實際上是將兩個 GPU 集成在一個 Blackwell 芯片當中。我們之前稱其為一個 GPU,但這個說法是不準確的。因為這會影響到 MV link 的命名規則。因此,在不追溯修改 Blackwell 的前提下,從現在開始,當我說 MVLink 144 時,它僅僅表示連接了 144 個 GPU。每一個 GPU 都是一個獨立的 GPU 裸片。它們可以被封裝在一起,封裝的具體方式可能會隨時發生變化。每一個 GPU 裸片都是一個獨立的 GPU,每一個 MV link 都連接到相應的 GPU。所以,更準確地說,應該是 Rubin NV link 144。這為今年下半年的產品發布奠定了基礎。

明年,我們將推出 Rubin Ultra。所以,是 Vera Rubin Ultra。它將于 2027 年下半年問世。它將采用 NVLink 576,實現極致的縱向擴展能力。每個機架的功率為 600 千瓦,包含 250 萬個組件。很顯然,它還集成了大量的 GPU,所有的參數都得到了大幅提升。它的浮點運算能力是原來的 14 倍,達到了 15 exaflops,而不再是 1 exaflop。正如之前提到的,現在是 15 exaflops。這是縱向擴展的 exaflops。它的帶寬高達 4.6 petabytes,也就是每秒 4600 terabytes。這里指的是縱向擴展的帶寬,我指的不是聚合帶寬,而是縱向擴展的帶寬。當然,還有許多全新的 MV link 交換機和 CX9。“ISO 尺寸”意味著它與 Grace Blackwell 具有相同的物理尺寸。現在,讓我們更直觀地了解一下。這就是它的外觀。

2-21

接下來,會非常有意思。各位現在正在部署 Grace Blackwell。我無意冒犯,但這就是 Grace Blackwell 的樣子。這就是 Rubin 的樣子。它們具有相同的物理尺寸。換句話說,在進行橫向擴展之前,必須先進行縱向擴展。然后,再利用我稍后將要展示給大家的這項令人驚嘆的技術來進行橫向擴展。首先進行縱向擴展,現在大家可以感受到我們的發展速度。這是縱向擴展的浮點運算能力。Hopper 為 1x,Blackwell 為 68x,Rubin 為 900x 縱向擴展的浮點運算能力。如果我把它轉換成你們的 TCO (總體擁有成本),也就是功率除以性能,或者說是曲線下方的面積,即浮點運算能力乘以帶寬。那么,一個簡單的經驗法則是,用瓦特數除以這些數字,就可以大致判斷你們的 AI 工廠是否取得了進展。大家可以看到,Rubin 將會顯著降低總體擁有成本。這就是 Nvidia 的產品路線圖,非常緊湊,一年更新一次。

我們如何進行縱向擴展呢?我們推出了 MP Vlink,用于縱向擴展。我們的橫向擴展網絡是 InfiniBand 和 Spectrum X。很多人都對我們進入以太網領域感到驚訝。我們決定進軍以太網的原因在于,如果能夠讓以太網具備 InfiniBand 的那些優良特性,那么網絡本身將會更易于使用和管理。因此,我們決定投資 Spectrum,并將其命名為 Spectrum X。

2-22

我們將擁塞控制、極低延遲以及作為計算結構一部分的大量軟件等特性引入其中。通過這些努力,我們使 Spectrum X 具備了令人難以置信的高性能。我們將有史以來最大的單個 GPU 集群通過 Spectrum X 縱向擴展為一個巨型集群,也就是 Colossus。還有很多其他的例子。毫無疑問,Spectrum X 是我們取得的一項巨大成功。我非常興奮的一個領域是,最大的企業網絡公司采用了 Spectrum X,并將其集成到他們自己的產品線中,從而幫助全球的企業轉型為 AI 公司。目前,我們擁有 10 萬個 CX8 和 CX7。CX8 和 CX9 即將問世。在 Rubin 時代,我們希望將 GPU 的數量橫向擴展到數十萬個。將 GPU 橫向擴展到數十萬個的挑戰在于,橫向擴展的連接,這種連接在縱向擴展上目前主要依賴于銅纜。我們應該盡可能地使用銅纜,大約一到兩米的距離。銅纜連接表現非常出色,可靠性高、能效好、成本低。因此,我們在縱向擴展中盡可能多地使用銅纜。

但是,在橫向擴展中,數據中心的規模已經相當于一個體育場,我們需要更長距離的連接。這就是硅光子技術的用武之地。硅光子技術目前面臨的挑戰在于收發器的功耗非常巨大。要實現電信號到光信號的轉換,必須經過 SerDes,也就是收發器。而且是多個 SerDes。讓我們把畫面調出來,這樣我就能給大家更清楚地展示一下。首先,我們宣布推出 Nvidia 首個采用共同封裝 (Co-packaged optics) 技術的硅光子系統,這是全球首個每秒 1.6 TB 的 CPO。它基于微環諧振器調制器 (MRM) 技術,完全采用我們在 TSMC 的先進工藝技術制造,我們在這個項目上已經合作了一段時間。此外,我們還與一個龐大的技術提供商生態系統展開了緊密合作,共同開發了接下來我將要展示給大家的這項成果。這真是一項令人驚嘆的技術。

我們之所以決定投資 MRM,是因為它具有驚人的密度和功率優勢,與用于電信領域的 Mach-Zehnder 調制器相比,MRM 具有更高的密度和更低的功耗。當你從一個數據中心連接到另一個數據中心時,或者在我們現在使用的這些收發器中,我們使用的是 Mach-Zehnder 調制器,這是因為之前的密度要求并不高。現在,如果大家看一下這些收發器,這是一個收發器的例子。

2-23

這個收發器的功耗是 30 瓦。請大家記住,30 瓦。如果批量采購,單個的價格是 1000 美元。這是一個插頭。這一端是電接口,另一端是光接口。光信號通過黃色的光纖傳輸進來。你把它插到交換機上,連接的就是電信號。這一端集成了收發器、激光器和 Mach-Zehnder 調制器技術。非常了不起。我們利用它來實現 GPU 到交換機、再到下一個交換機、最終到 GPU 的連接。假設我們有 10 萬個 GPU,那么就需要 10 萬個這樣的收發器,以及另外 10 萬個用于交換機之間的連接。另一端則連接到另一個網絡接口卡 (NIC)。如果我們有 25 萬個 GPU,就需要增加一層交換機。每一個 GPU,假設有 25 萬個 GPU,每個 GPU 將配備 6 個收發器,也就是 6 個這樣的插頭。這 6 個插頭將為每個 GPU 增加 180 瓦的功耗,每個 GPU 180 瓦,每個 GPU 6000 美元。那么,問題來了,我們如何擴展到數百萬個 GPU 呢?因為如果有一百萬個 GPU,乘以 6,那就是 600 萬個收發器,再乘以 30 瓦,那就是 180 兆瓦的收發器功耗。它們本身不進行任何計算,僅僅負責信號的傳輸。

所以,問題是,我們如何才能負擔得起如此高的功耗?正如我之前提到的,能源是我們最為寶貴的資源。一切最終都與能源息息相關。因此,這將通過減少 180 兆瓦的功率,來直接限制我們以及我們客戶的收入。這就是我們所做的這項了不起的工作——我們發明了世界上第一個 MRM 微環。大家現在看到的就是它的外觀。這里有一個小小的波導。看到波導上的那個圓環了嗎?這個圓環會產生諧振,從而精確控制波導的反射率,限制和調制通過的光量,通過吸收或者透傳來控制光信號。它將連續的激光束轉換為數字信號 1 和 0。這就是這項技術的奧秘所在。這項技術,也就是光子 IC,與電子 IC 堆疊在一起,然后再與一組微透鏡堆疊,這組微透鏡再與光纖陣列堆疊。所有這些組件都是在 TSMC 使用 CoWoS (Chip-on-Wafer-on-Substrate) 技術來制造的,并且采用 CoWoS 封裝技術,與眾多技術提供商合作完成。最終,它變成了大家現在看到的這個令人驚嘆的設備。讓我們來看一段關于它的視頻。

這真是一個偉大的技術奇跡。它們被集成到這些交換機當中。我們的 InfiniBand 交換機,芯片運行得非常出色。今年下半年,我們將正式推出硅光子交換機。明年下半年,我們將推出 Spectrum X。

2-24

由于我們選擇了 MRM,由于我們在過去五年中承擔的巨大技術風險,我們已經申請了數百項專利,并且我們已經將這項技術授權給我們的合作伙伴,以便大家都可以大規模制造。現在,我們可以將硅光子技術與共同封裝選項完美地結合起來。無需收發器,光纖直接接入我們的交換機,radix 高達 512。大家現在看到的就是 512 個端口。這在以前是根本無法實現的。這為我們擴展到數十萬甚至數百萬個 GPU 奠定了堅實的基礎。這樣做的好處,大家可以想象一下,在數據中心里,我們可以節省數十兆瓦的電力。我們假設是 60 兆瓦。6 兆瓦相當于什么?6 兆瓦相當于 10 個 Rubin Ultra 機架。6 兆瓦就是 10 個 Rubin Ultra 機架。60 兆瓦,那可是相當可觀的。

這意味著我們可以將相當于 100 個 Rubin Ultra 機架的功率用于部署 Rubins。這就是我們的產品路線圖,一年一次,每兩年更新一次底層架構,每年推出一個全新的產品系列。每年都會有顯著的性能提升,我們會分別在芯片、網絡或系統機箱等方面承擔一定的技術風險,以便在不斷追求這些尖端技術的同時,有力地推動整個行業向前發展。

Vera Rubin,我非常感謝她的孫輩們今天能夠來到這里。這是我們對她所做出的杰出貢獻表示認可和敬意的絕佳機會。我們的下一代產品將以 Feynman 的名字來命名。好的,以上就是 Nvidia 的產品路線圖。接下來,我將和大家分享一下企業級計算方面的一些進展。這一點非常重要。為了將 AI 技術推廣到全球的企業,首先,我們需要了解 Nvidia 的另一個重要領域——3D 高斯濺射(Gaussian Splats)的獨特魅力。

2-25

為了將 AI 技術全面推廣到企業級應用中,我們有必要回顧并牢記一點:AI 和機器學習已經徹底重塑了整個計算體系。從處理器、操作系統到上層應用程序,一切都煥然一新。應用程序的開發方式、編排方式,乃至運行方式,都與以往大不相同。舉個例子,數據訪問的方式將發生根本性的變革。未來,我們不再需要像過去那樣,先精確檢索到所需的數據,然后再通過閱讀來理解其含義;而是可以像使用 Perplexity 那樣,直接提出問題,就能得到答案。未來的企業 IT 也將如此。我們將擁有 AI Agent,它們將成為我們數字化勞動力的重要組成部分。

目前,全球有 10 億知識工作者,而未來,可能會有 100 億數字工作者與我們并肩作戰。所有的軟件工程師都將得到 AI 的輔助,這一點我深信不疑。而且,到今年年底,Nvidia 所有的軟件工程師都將實現 AI 輔助。AI Agent 將無處不在。它們的運行模式、企業的應用方式,以及我們對它們的管理方式,都將發生根本性的變化。因此,我們需要一系列全新的計算機。而這,才是 PC 應有的樣子。

2-26

高達 20 petaflops 的算力,72 個 CPU 核心,芯片間互聯技術,HBM 高帶寬內存,以及為 GeForce 顯卡預留的 PCI Express 插槽。這款名為 DGX Station 的產品,以及 DGX、Spark 和 DGX Station,將由所有 OEM 廠商提供,包括 HP、Dell、Lenovo 和 ASUS。它將是為全球的數據科學家和研究人員量身打造的。這是屬于 AI 時代的計算機,這才是計算機應有的形態,也是計算機未來的發展方向。我們為企業提供了全線產品,從小型的工作站、服務器,到超級計算機,一應俱全。所有合作伙伴都將提供這些產品。此外,我們還將對計算堆棧的其他組成部分進行革新。

計算領域有三大支柱:計算、網絡(正如我之前提到的 Spectrum X,一個面向全球企業的 AI 網絡),以及存儲。儲必須進行徹底的重塑。未來的存儲系統將不再是基于檢索的,而將是基于語義的。因此,存儲系統必須能夠在后臺持續地嵌入信息,將原始數據轉化為知識。這樣一來,當你需要訪問數據時,無需進行檢索,只需與之對話,提出問題或任務即可。舉個例子,Box 的 Aaron 已經與我們展開合作,在云端部署了一個應用。從本質上講,這是一個超級智能的存儲系統。未來,每個企業都將擁有類似的系統。這就是未來的企業級存儲。我們正在與整個存儲行業通力合作,包括 DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast 和 Weka 等眾多杰出的合作伙伴。幾乎全球所有的存儲廠商都將首次提供這一技術堆棧。未來的存儲系統將實現 GPU 加速。

2-27

這是 Michael 準備的幻燈片,是一張非常棒的幻燈片。為什么這么說呢?因為他用一張幻燈片就清晰地闡述了 Dell 將提供全線的 Nvidia Enterprise IT AI 基礎設施系統,以及運行其上的所有軟件。大家可以看到,我們正在引領一場全球企業界的革新。

今天,我們還發布了一個功能強大的模型,每個人都可以運行。之前,我向大家展示了 R1,一個具備推理能力的模型。我還將它與不具備推理能力的模型 Llama 3 進行了對比,顯然 R1 要智能得多。但是,我們還可以做得更好,讓任何公司都能為企業級應用做好充分準備。現在,作為我們 NIMS 系統的一部分,R1 已經完全開源。大家可以下載并在任何平臺上運行,包括 DGX Spark、DGX Station、任何 OEM 廠商制造的服務器、云端,還可以將其集成到任何 Agentic AI 框架中。我們正在與全球眾多公司展開合作,接下來,我將快速地展示其中的一部分,請大家仔細觀看。

現場有很多我們的重要合作伙伴,我想在這里特別介紹一下 Accenture。Julie Sweet 和她的團隊正在構建 AI 工廠和 AI 框架。還有 Amdocs,它是全球最大的電信軟件公司。以及 AT&T,John Stankey 和他的團隊正在構建 AT&T 的 Agentic AI 系統。Larry Fink 和 Blackrock 團隊也在構建他們自己的系統。還有 Andy Rude。未來,我們不僅要招聘ASIC設計師,還要從 Cadence Design Systems(CEO為Anirudh Devgan)聘請大批數字ASIC設計師。Cadence正在構建其AI框架,集成NVIDIA的模型(如NeMo)、NVIDIA NIM(推理微服務)以及 CUDA加速庫(如cuDNN),支持本地和云端部署。Capital One,作為在技術應用方面最為領先的金融服務公司之一,已經全面采用了 Nvidia 的技術。Deloitte 的 Jason 及其團隊, Eni的Janet及其團隊,NASA 的 Adina 及其團隊,都在將 Nvidia 的技術集成到他們各自的 AI 框架中。此外,還有 Christian 和他在 SAP 的團隊,Bill McDermott 和他在 ServiceNow 的團隊。

接下來,讓我們轉換一下話題,來談一談機器人技術。現在,是時候討論機器人了。機器人時代已經到來。機器人最大的優勢在于,它們能夠與物理世界進行交互,做到數字信息無法做到的事情。我們都清楚地認識到,全球正面臨著嚴重的勞動力短缺問題。預計到 2030 年,全球勞動力缺口將至少達到 5000 萬。我們當然非常樂意為每個人提供 5 萬美元的年薪。但相應的,我們可能也需要每年支付 5 萬美元給機器人。

因此,這將是一個規模極為龐大的產業。機器人系統的種類繁多。未來的基礎設施都將是機器人化的。倉庫和工廠中將部署數以十億計的攝像頭。全球范圍內,有 1000 萬到 2000 萬家工廠。正如我之前提到的,每一輛汽車都已經是一個機器人。而現在,我們正在致力于開發通用機器人。接下來,我將向大家展示我們的進展。

2-28

所有運動的物體都將實現自主化。物理 AI 將賦能各行各業的各類機器人。Nvidia 構建的三臺計算機,實現了機器人 AI 的模擬、訓練、測試以及真實世界經驗的持續循環。訓練機器人需要海量的數據。互聯網規模的數據能夠提供常識和推理能力,但機器人還需要動作和控制數據,而這些數據的獲取成本往往很高。借助基于 Nvidia、Omniverse 和 Cosmos 構建的藍圖,開發人員可以生成大量多樣化的合成數據,用于訓練機器人的行為策略。首先,在 Omniverse 中,開發人員可以根據不同的領域、機器人類型和任務需求,聚合來自真實世界的傳感器數據或演示數據。

然后,利用 Omniverse 對 Cosmos 進行調節,將原始采集的數據倍增,生成海量且逼真的多樣化數據。開發人員可以使用 Isaac Lab,利用這些增強的數據集對機器人的行為策略進行后期訓練。通過模仿學習來克隆行為,或者通過強化學習和 AI 反饋進行試錯,讓機器人學習新的技能。需要注意的是,實驗室的訓練環境與真實世界是存在差異的。因此,新的行為策略還需要經過現場測試。開發人員可以利用 Omniverse 進行軟硬件在環測試,在具有真實世界環境動態的數字孿生環境中模擬機器人的行為策略,并進行域隨機化、物理反饋以及高頻傳感器模擬。在真實世界的應用場景中,往往需要多個機器人協同工作。Mega 是一個 Omniverse 藍圖,它支持開發人員對經過后期訓練的行為策略進行大規模測試。

例如,富士康就在一個虛擬的 Nvidia Blackwell 生產設施中,對各種不同類型的機器人進行了測試。當機器人的“大腦”執行任務時,它們會通過傳感器模擬來感知行動的結果,然后規劃下一步的行動。Mega 允許開發人員測試多種機器人的行為策略,使機器人能夠作為一個系統協同工作,無論是進行空間推理、導航、移動,還是執行靈巧的操作。許多令人驚嘆的成果都誕生于模擬之中。今天,我們非常高興地推出 Nvidia Isaac Groot N1。Groot N1 是一個用于人形機器人的通用基礎模型。它建立在合成數據生成和機器學習的基礎之上。在模擬環境中,Groot N1 采用了一種雙系統架構,以實現快速和慢速的思考模式,其靈感來源于人類認知過程的原理。慢速思考系統使機器人能夠感知和推理周圍的環境以及接收到的指令,并規劃出正確的行動方案

而快速思考系統則負責將這些規劃轉化為精確且連續的機器人動作。Groot N1 強大的泛化能力,使得機器人能夠輕松地操控常見的物體,并協同執行多步驟的任務。借助這一整套包含合成數據生成和機器人學習的完整流程,人形機器人的開發者們可以在全球多個不同的環境中,對 Groot N1 進行跨多種形態和任務的后期訓練。各行各業的開發者們都在利用 Nvidia 的這三臺計算機,來構建下一代的具身 AI。

物理 AI 和機器人技術的發展日新月異,請大家務必密切關注這一領域。它極有可能發展成為規模最大的產業。從本質上講,我們所面臨的挑戰是相同的。正如我之前提到的,我們主要關注三個方面,而且這些方面是系統性的:第一,如何解決數據問題?如何以及在哪里生成訓練 AI 所需的數據?第二,模型架構應該是什么樣的?第三,Scaling Law 是什么?我們應該如何擴展數據、算力,或者兩者兼顧,從而讓 AI 變得越來越智能?如何實現這種擴展?這些基本問題同樣存在于機器人領域。

在機器人領域,我們創建了一個名為 Omniverse 的系統,它是我們用于物理 AI 的操作系統。大家可能已經聽我介紹 Omniverse 很長時間了。這次,我們又新增了兩項關鍵技術。今天,我將向大家展示兩項重要的成果。其中之一是,我們可以利用具備生成能力,并且能夠理解物理世界的生成模型,來擴展 AI。我們將這個模型稱為 Cosmos。我們利用 Omniverse 來對 Cosmos 進行調節,并利用 Cosmos 來生成無限數量的環境。這些環境使我們能夠創建出有依據、受我們控制,同時又具備系統無限性的數據。正如大家所看到的,在 Omniverse 中,我們用鮮艷的色彩來展示對場景中機器人的完美控制,而 Cosmos 則可以創建出所有這些虛擬環境。

2-29

第二項重要成果,正如我們之前所討論的,當今語言模型的一項關鍵擴展能力就是強化學習。可驗證的獎勵至關重要。那么,問題來了,在機器人技術中,什么是可驗證的獎勵呢?正如我們所熟知的,答案就是物理定律,即可驗證的物理獎勵。因此,我們需要一個性能強大的物理引擎。目前,大多數物理引擎的設計都有其特定的應用場景,它們可能是為大型機械設計的,也可能是為虛擬世界、電子游戲等設計的。但是,我們需要的是一個專為精細的剛體和柔性體設計的物理引擎,它能夠支持觸覺反饋、精細運動技能以及執行器控制的訓練。我們還需要它具備 GPU 加速能力,從而使得這些虛擬世界能夠以超線性時間運行,實現超實時的效果,并且能夠以極快的速度訓練 AI 模型。此外,我們還需要將它無縫集成到一個全球機器人專家都在使用的框架中,也就是MuJoCo。因此,今天,我們非常榮幸地宣布一項意義非凡的合作。DeepMind、Disney Research 和 Nvidia 這三家公司將攜手合作,共同打造一個全新的項目。我們將它命名為 Newton。讓我們一起來了解一下 Newton物理引擎。

2-30

我們還有一個激動人心的好消息要宣布。我之前就說過,我們的機器人技術一直在突飛猛進。今天,我們正式宣布 Groot N1 開源!感謝各位的光臨。

2-31

讓我們來做一個總結。感謝大家參加本次 GTC 大會。我們討論了幾個重要方面。首先,Blackwell 已經全面投產,并且正在迅速擴大生產規模。客戶的需求非常旺盛,這是理所當然的。因為 AI 領域正處于一個關鍵的拐點。由于推理 AI 以及推理 AI 和 Agentic AI的訓練需求,我們需要進行的 AI 計算量大幅增加。其次,配備了 Dynamo 技術的 Blackwell NV Link 72,其 AI 工廠的性能是 Hopper 的 40 倍。隨著 AI 技術的不斷發展和規模化應用,推理將成為未來十年最重要的工作負載之一。第三,我們已經制定了年度技術路線圖,方便大家規劃各自的 AI 基礎設施。目前,我們擁有三大 AI 基礎設施:面向云計算的 AI 基礎設施、面向企業的 AI 基礎設施,以及面向機器人的 AI 基礎設施。最后,我們還有一個驚喜要帶給大家,請觀看視頻。謝謝大家!感謝所有促成這段視頻的合作伙伴,感謝所有為這段視頻的制作做出貢獻的人。祝大家在 GTC 期間收獲滿滿。謝謝大家!

 

【AI算力產業討論社群|僅限受邀加入】

席位鎖定中:AI算力領域TOP級從業者專屬圈層

√  與頭部算力企業深度對話

√  獲取一手全球AI與算力產業信息

√  獲取AI算力產業獨家信息

√  隨時了解智算中心項目動態

√  有機會參與主題AI與算力產業交流活動

掃碼驗證身份(需備注姓名/公司/職務)

注:每滿200人關閉入口

IDC李融

不止是 DeepSeek,更是 AI 算力產業的未來!

算力產業內刊pro

關注中國IDC圈官方微信:idc-quan 我們將定期推送IDC產業最新資訊

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高興

  • 震驚

  • 憤怒

  • 無聊

  • 無奈

  • 謊言

  • 槍稿

  • 不解

  • 標題黨
2024-03-20 10:12:12
市場情報 亞馬遜云科技與英偉達擴展合作 持續推進生成式AI創新
亞馬遜云科技將提供NVIDIA GB200 Grace Blackwell Superchip和 B100 Tensor Core GPU,這一舉措延續了雙方長期的戰略合作伙伴關系,旨在為客戶提供安全、先進的基礎設施、 <詳情>
2023-11-14 13:40:04
2023-03-22 16:30:08
市場情報 亞馬遜云科技與英偉達攜手開發下一代基礎設施,助力大型機器學習模型訓練和生成式AI應用程序構建
部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5實例經過充分優化,可以利用英偉達 Hopper GPU加速生成式AI的大規模訓練和推理 <詳情>
倒計時1天 | 來服貿會參加一場貫穿AI與算力全景生態的活動
2025-09-12 13:27:07
浙江南湖(中國航信)人工智能產業園區揭牌!
2025-09-10 16:44:00
幽靈數據中心困擾美國 電力公司陷預測困境
2025-09-05 17:19:01
投資84.66億元,新星市國信清控智算中心30000P建設項目招標公告
2025-09-05 17:17:01
福建華銳總經理林波一行到訪螞蟻集團,深入洽談智算領域長期戰略合作方向
2025-09-05 13:17:36
【ISSE國際智慧空間展】智構空間,慧聚未來 | 預登記早鳥福利發送,展會亮點搶先看!
2025-09-05 10:52:41
規劃320000P、24000架,飛拓張家口智算中心一期中標候選人公示發布
2025-09-04 17:13:24
風液混合:數據中心冷卻不容忽視的“中場戰事”
2025-09-04 17:11:55
【9月ISSE國際智慧空間展】數據中心篇:數字基座 助力數字貿易生態
2025-09-03 16:47:32
智算中心新麻煩:AI大模型訓練功率波動將危及電網?
2025-09-03 10:41:33
總投資8億元、1300P,平潭兩岸融合智算中心二期項目9月即將投產
2025-09-02 16:32:29
【數字匠人】盛達全球王鼎然:從本土到全球:以匠人精神重塑機房搬遷生態價值鏈
2025-09-02 16:31:12
715.5億營收的背后,中興通訊用“AI+算力”再造增長極
2025-09-02 16:29:06
Gartner張吟鈴:算力“過剩”具有周期性和區域性
2025-09-02 12:19:12
劉烈宏:“東數西算”戰略成果顯著,八大樞紐節點智算規模已占全國八成
2025-09-01 16:24:22
主站蜘蛛池模板: 手游| 唐山市| 集安市| 敦煌市| 泸定县| 松溪县| 天台县| 杂多县| 辉县市| 鹿邑县| 瑞丽市| 扎鲁特旗| 读书| 洞口县| 龙海市| 九台市| 五莲县| 威宁| 阿拉善左旗| 洛宁县| 哈尔滨市| 苏尼特右旗| 呼图壁县| 河北区| 绍兴市| 浦县| 五原县| 阿城市| 嘉祥县| 贡嘎县| 博客| 东安县| 洛南县| 南丰县| 兴安县| 商洛市| 瓮安县| 平阳县| 舞阳县| 电白县| 富顺县|