2024年12月19日,以“多元重構 算力躍遷”為主題的第十九屆中國IDC產業年度大典(IDCC2024)在北京首鋼園(四高爐)隆重舉行。會上,中國工程院院士鄔賀銓發表了《端側大模型與AI智能體》的主題演講。
鄔賀銓院士指出,人工智能正由基礎大模型向場景和行業模型演進,其中一大趨勢是模型上云,以模型即服務的方式表現出來,另一趨勢則是智能下沉,形成端側大模型。他表示,大模型落地終端,可實現“本地運行”,模型需“精簡、壓縮”,以適應終端算力限制。
鄔院士強調,智能體是模型落地的關鍵,能夠將大模型的知識轉化為感悟,從而實現從快思考到長思考的閉環優化。鄔賀銓院士認為,智能體會為更多的開發者投身人工智能技術開發展現廣闊的應用場景。端側大模型與智能體將成為人工智能技術落地的重要切入點,是數字經濟發展賦能的新增長點,還是傳統產業數字化轉型的著力點。
01
大模型的兩大趨勢:上云與下沉
演講中,鄔賀銓院士明確指出當前人工智能發展的兩大關鍵趨勢:“一個趨勢是把大模型上云,以模型即服務的方式表現出來;還有一種趨勢是成為端側大模型,落到物理實體上,智能下沉。”
他進一步解釋,大模型上云能夠顯著降低接入門檻,為中小企業提供便利。而智能下沉則強調大模型通過端側應用與物理實體深度結合,成為貼近用戶場景的智能終端。
在談到如何實現將基礎大模型轉化為垂直行業的場景模型,形成企業自己的模型,鄔院士提出了兩種路徑:“一種是有數據的企業把自身的數據送給基礎大模型提供方,請他們訓練出行業模型;另一種是從基礎大模型買來或租來模型,加入自身的數據進行再訓練。”
不過,鄔院士也指出,前者很多垂直行業的企業擔心泄密,后者雖然避免了數據泄漏風險,但由于企業的生產管理流程復雜、場景多樣,從基礎大模型開發出一個高度契合行業需求的大模型依然存在難度。
02
智能體:從助手到代理的進化
鄔院士強調,“模型落地還有很重要的一步是智能體。”他指出,與大模型單純的一問一答功能相比,智能體更具有任務分解和規劃能力,能夠調用工具完成復雜任務。
智能體可以看成是接受自然語言命令,并且可以跟場景互動,具有初步思維鏈能力的小程序或App。他特別提到,“助手不能當代理,助手只能提參謀意見,而代理可以由你授權,它直接就可以執行。”智能體不僅僅是大模型的助手,更是具備規劃和執行能力的代理。它能夠通過獨立授權代替人完成特定任務,將大模型的知識真正轉化為感悟并實現行動。
鄔院士還將智能體的運行特性概括為從“快思考”到“長思考”的閉環優化過程。“一般的大模型是‘快思考’,能夠快速回答問題,但缺乏精準性;而智能體通過行動中的學習實現閉環優化,是‘長思考’的過程。”
這一過程依賴于智能體在執行任務后的反饋機制。“智能體生成是在大模型支持下,通過執行任務的閉環學習實現的。操作的結果會反向反饋到模型中,逐步形成短期記憶,并通過優化轉化為長期記憶。”這種記憶轉化機制賦予了智能體感悟能力,使其能夠在不斷的迭代中完成復雜而細化的任務,彌補大模型的不足。
03
智能體賦能終端:手機、PC到工業場景
鄔賀銓院士以智能體在終端中的應用為例,詳細闡釋了其賦能價值。在智能手機中,智能體能夠學習用戶習慣并實現個性化操作。例如,他提到,“如果你對手機說‘我要訂一杯咖啡’,智能體會根據你的習慣選擇大杯、熱的、拿鐵,并自動完成支付。”類似的應用同樣可以推廣至PC端,通過學習用戶的日常操作模式,高效完成復雜任務。
在工業場景中,智能體的潛力更為顯著。鄔院士提到,“在工業領域,智能體可以代替人操縱機器或機床,根據用戶習慣優化操作。”
04
端側大模型的技術挑戰與前景
將大模型落到終端,不僅能夠降低對云端計算資源的依賴,還能顯著降低時延,提高響應速度,尤其在隱私保護和個性化服務方面具有顯著優勢。
不過,終端的算力是有限的。鄔賀銓院士指出,盡管終端設備的算力正在不斷提升,但受限于待機時間、能耗等因素,終端算力依然存在瓶頸。“終端的算力雖然逐漸接近PC水平,但由于能耗和散熱的限制,仍無法支撐超大規模模型的運行。因此,端側大模型需要通過模型壓縮來實現瘦身。”
當前30億參數的模型已具備初步推理能力,而70億參數模型可以實現更高精度的意圖識別,鄔院士表示,“未來如果不考慮待機等因素,上千億參數的端側模型是沒問題的。”
鄔院士進一步指出,人工智能的AI終端可以釋放用戶生成內容的創意,增強用戶的體驗,催生5G的新應用,同時激活上萬億元的手機產業和PC產業。在技術實現方面,鄔院士提到,當前最新的5G手機已在硬件性能上實現突破。“像高通的手機已經做到3納米的芯片,能夠支持大概80億參數的推理。”此外,AIPC能力也在不斷提升。有機構預測,“到2026年,中國市場大概有一半左右的終端將配備AI引擎能力。”
05
AI智能終端與具身智能
鄔賀銓院士表示,端側大模型+智能體開啟AI終端時代,從手持智能終端到可穿戴設備、桌面終端,還會擴展到無人機、智能網聯車、工業模組、儀器儀表、物聯網、機器人,帶動軟硬件產業以及新型信息服務業的發展。
智能穿戴設備方面,AI眼鏡以語音交互、手勢控制和實時翻譯等技術為核心,正在成為人機交互的新型接口。AI眼鏡通過搭載麥克風、揚聲器、攝像頭以及無線短距通信模塊,與智能手機和云端相結合,能夠完成多模態感知和高效任務執行,未來AI的眼鏡需求量很大。AR眼鏡結合虛實融合技術,不僅能夠顯示虛擬信息,還可以與現實場景進行深度互動,在工業、醫療、教育等多個領域的應用潛力顯著。
此外,大模型智能體落到物理實體上就可以成為具身智能,具身智能具有三大特點:一是多模態感知能力,包括聽覺、視覺、觸覺以及各種傳感器的能力;二是與環境的交互能力;三是從感知到認知的轉化能力。
具身智能落到機器人上就是人形機器人,落在汽車上就是智能網聯汽車,智能網聯汽車需要車端和云端的算力協同工作。在云端,強大的計算能力支持車輛的離線訓練和泛化推理,能夠實現軟件更新、下載以及車輛間的交互;而在車端,可以實現高效響應,克服云端通信時延問題。兩個實體都是端側大模型以及智能體很好的應用場景。