【天極網手機頻道】3月27日,CFMS|MemoryS?2026?峰會以“穿越周期,釋放價值”為主題在深圳舉辦。本屆峰會匯聚存儲、CPU/GPU、AI大模型、汽車等全球核心產業鏈生態企業,探索AI時代下,存儲廠商、應用終端與平臺廠商將如何融合新技術、新產品,協同構建高效生態。高通公司AI產品技術中國區負責人萬衛星受邀出席本次峰會并發表主題演講,探討了在智能體AI創新浪潮下,端側將如何引領構建個人AI的未來。
萬衛星指出,個人AI將始于端側,我們正在邁向以AI和用戶為中心的多終端體驗,終端側智能體將能夠提供更低時延、更好的個性化以及持續無感的用戶體驗。高通公司通過統一的技術路線,能夠跨廣泛產品組合提供高性能、高能效的軟硬件技術底座,為賦能個人AI提供跨終端、跨場景的平臺級能力。
![]()
此外,為表彰產業鏈內的杰出企業與領軍人士,彰顯行業標桿力量,MemoryS大獎也在本次峰會期間頒布,通過將業務從智能手機擴展至個人AI與智能可穿戴設備、PC、汽車、邊緣網絡以及工業物聯網等廣泛邊緣領域,引領構建“邊緣智能生態”,推動AI在萬物互聯終端上真正實現低延遲、高安全的本地化落地,高通公司榮獲“年度AI生態杰出貢獻獎”。
![]()
以下為萬衛星演講全文:
各位嘉賓,現場的朋友,大家上午好。今天我分享的主題是“引領智能體AI創新,在端側構建個人AI未來”。我們首先來看一下AI在行業應用的幾個演進階段,第一個階段我們可以把它叫做感知AI,感知AI并不陌生,它包括多媒體信號、比如語音信號的理解,對圖像的分類識別,以及智能降噪等傳統領域的用例。這類感知AI在大多數的終端側平臺已經得到了商業化落地,一個很典型的例子就是在手機領域的計算攝影,其實就得益于感知AI的落地。
第二個階段就是生成式AI,這個階段的特點是在基于大量數據預訓練的情況下,AI可以在有監督的情況下去解決一些具體的問題,比如說OpenAI的ChatGPT模型,以及文生圖模型等等。第三個階段我們叫做智能體AI。智能體AI跟生成式AI有個很重要的區別就是,它基本上可以在無監督的情況下,自主的去理解用戶意圖,進行行動和決策,幫我們解決稍微復雜的任務。第四階段我們叫做物理AI,AI可以真正去理解我們的物理世界,根據真實物理世界的物理規定,對輸入進行反饋和輸出。這一技術還在早期應用階段。如果大家關注今年在巴塞羅那的MWC世界移動通信大會,應該也看到了大量行業關于物理AI的探索進展。
目前我們看到行業內的關注重點主要在第二階段和第三階段。接下來我們先看一下生成式AI的發展趨勢。我們看到很重要的一點是,能夠在端側運行的生成式AI模型,它的智能正在快速的提升。首先,端側設備能夠支持的模型參數量正在變得越來越大,比如在手機上我們已經可以運行10億到100億參數級別的大模型,在PC上可以運行130億到200億參數量的大模型。在車上,我們可以支持的模型參數量可能會更大,達到200~600億的級別。
在更小型的設備上,比如AR眼鏡和低功耗設備,我們也實現了讓參數規模在10億-40億之間的模型完全在端側運行。雖然相較于云端大模型,端側模型的參數量仍然相對較小,但行業內的各種技術正在推動端側大模型支持體量的提升,比如內存帶寬提升,量化位寬技術的優化可以進一步壓縮模型尺寸,這都意味著終端設備可以承載更豐富的模型。
從模型本身的能力來看,我們觀察到兩點。首先,去年我們已成功將具備推理能力的大模型部署到了端側。第二,在端側大模型所對應的各類場景中,其支持的上下文長度也在提升。大概在三年前,端側上下文長度普遍僅限于1k-2k;兩年前,大部分場景的上下文已經擴展到2k-4k;而去年,高通在與合作伙伴的場景探索中,這個區間已提升到4k-8k。在一些特定的場景中,我們甚至已經可以支持32k-128k的上下文長度。
更長的上下文需求在端側部署其實是具有挑戰性的,上下文越來越長,意味著對KV緩存(Key-Value?Cache)的需求會越來越大。這直接導致將模型整體部署到端側時,所需的內存容量會增加,同時對內存帶寬的要求也會越來越高。在模態演進方面,我們同樣看到端側模型正從單一的“文生文”、“文生圖”、“圖生圖”向更豐富的多模態方向發展,包括語音、文字、照片、視覺以及傳感器等多種輸入,甚至正在向全模態的方向邁進。在去年9月的驍龍峰會上,高通也展示了與合作伙伴共同將50億參數的全模態模型完整運行在端側,用戶可以通過自然語言進行交互。
介紹完趨勢,下面我們來分享生成式AI在端側部署的優勢與挑戰。我認為端側運行生成式AI的最大優勢在于個性化。因為個人所有的數據都在端側,而新數據的產生源頭也是在端側。在數據產生的源頭直接進行推理是一件非常自然的事情,同時也可以更好保護用戶的隱私。此外,端側生成式AI還有更高的成本優勢,且無需網絡連接,這讓用戶能夠隨時隨地享受生成式AI帶來的服務。在挑戰方面,我這里重點強調幾點。第一點是端側內存規模的限制。雖然我們有很多技術手段能夠壓縮模型體積,但有限的內存終究會對可運行的模型大小設置上限,而模型大小的上限也意味著端側AI能力的上限。
第二點,端側的內存帶寬也是有限制的。大家知道,自回歸網絡的一個顯著特點就是受內存帶寬限制,有限的帶寬會影響大模型輸出token(詞元)的速度,進而影響到具體場景里面的用戶體驗。第三點,我想重點強調在很多終端設備上,尤其是在手機這種集成度比較高的設備上,能效非常重要。我們要避免AI推理在運行時觸發溫控限制,避免引起設備發熱。因此,如何在內存大小、帶寬以及性能和能效之間達成平衡,是我們和業內伙伴一直在嘗試解決的問題。
下面我們來看一下智能體AI的趨勢,最重要的一點就是怎么讓終端側智能體和用戶實現深度適配。第一個顯著趨勢就是終端側智能體,其核心在于能夠提供更低時延、更好的個性化以及持續無感的用戶體驗。第二是智能體專業化。最開始人們是想讓統一的模型去解決大多數問題,現在我們在走向任務專業化,通過專業化智能體和多智能體框架來解決問題。第三個趨勢,也是我覺得對用戶體驗最重要的趨勢,就是高度個性化。終端側智能體不再是以前那種簡單的對話類語音助手,而是變成能夠充分理解用戶意圖、理解上下文、理解用戶感知信息的真正懂你的AI助手。
我們再來詳細看一下智能體AI的基礎模塊。大家可以簡單把智能體理解為一個持續運行的閉環系統,這一系統里包含多個基礎模塊,比如感知模塊、理解模塊和推理模塊,還有記憶系統、工具系統甚至執行系統。這些模塊整合在一起,讓智能體能夠理解用戶的意圖,處理用戶輸入的信息,通過對信息的理解來拆分成多個任務并獨立完成目標。更重要的是,終端側智能體可以提供持續感知、持續思考并且持續行動的用戶體驗。
智能體AI其實為我們面向新數字世界的交互范式帶來很大改變。高通在過去兩年一直在講“AI是新的UI”——AI是新的用戶交互界面。未來,用戶不再是圍繞某個單一的APP或者某個單一功能去做交互,只需要用語音或文本和智能體去自然交互,智能體就能通過理解用戶的輸入信息去理解用戶意圖,分解并規劃任務。再結合運行在驍龍平臺上的端側大模型,可以解決我們的任務,也可以通過云端的通用大模型,讓AI賦能娛樂、生產力工具、行業應用等廣泛的場景。
在過去,個人AI更多是以手機為中心,耳機、眼鏡、手表等其他設備是作為附屬與手機連接。未來,我們正在邁向以AI和用戶為中心的多終端體驗。也就是說AI不再綁定某一個具體的設備,如果是通過個人AI或者智能體去理解用戶的意圖,再去執行用戶的任務,這些任務是通過多個設備之間的靈活協同來完成的。AI設備它只是AI的載體,未來個人AI體驗一定是朝著打造更持續、更無感的用戶體驗方向去演進。從我們的視角去看個人AI,它一定是始于終端側的,因為終端側離用戶最近,終端側擁有用戶的所有信息,因此能夠在第一時間感知到用戶個人的意圖、上下文和偏好。
但是個人AI它不是孤立運行的,它可以通過混合AI的架構,在終端側、本地邊緣、網絡邊緣和中央云協同工作。高通在去年也發布了多款可以提供充分算力去支撐個人AI場景的產品,包括第五代驍龍8至尊版移動平臺、驍龍X2?Elite計算平臺等。大家已經可以在市場上看到非常多搭載上述驍龍平臺的商用終端。
剛才我們聊了終端側,那么在數據中心領域,我們也是在今年MWC發布了基于Qualcomm??AI200和AI250芯片的加速卡和機架系統。我們以行業領先的總體擁有成本(TCO)為高速數據中心生成式AI推理提供機架級性能與卓越內存容量。尤其是AI250,它引入了一個創新的內存架構,為AI處理工作負載帶來效率的跨時代躍升。
最后,我想給大家總結一下高通在AI方面的整體布局。從手機、耳機、可穿戴設備、PC等消費電子產品,再到汽車、機器人,甚至到下一代的數據中心,我們都在用統一的AI架構去賦能所有的產品,核心就在于我們能夠通過統一的技術路線,提供高性能、高能效的軟硬件技術底座,讓高通的AI能力得以從單個產品或者單顆芯片擴展成為規模化的跨終端、跨場景的平臺級能力。
以上就是我今天所有的分享,非常感謝大家。
聚合標簽:
網友評論
發布
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.