網易首頁 > 網易號 > 正文申請入駐

專訪vivo總裁胡柏山：AI 已經很聰明了，vivo 要讓它真正看懂世界

2026-03-27 12:08:17　來源: 愛范兒

廣東舉報

分享至

拼大腦，沒有護城河押注「感知」一切交給時間

今年春節，OpenClaw 火了。短短兩個月不到，它又冷下去了——又一場 AI 應用層面的熱鬧。

熱鬧散了，沒人知道下一個 OpenClaw 是誰，也沒人知道這些東西究竟在解決什么問題。

用影像旗艦手機拍下一張夜景當中的人臉，細節清晰到能看見眼眶里的水光。但手機可能并不清楚，主角剛才是否哭泣，也就無法理解這張佳作的情緒背景；再用長焦技能把數百米外的一個路人拉到面前，細節纖毫畢現。但你問手機：這個人是著急趕路，還是在找什么東西？手機仍然不知道。

今天的 agent 能寫代碼、能操控網頁、能把一份 PDF 整理成會議紀要。這些它都做得不錯。但這些事情有一個共同點：處理的全是人類已經事先轉好格式的信息。文件、數據庫、網頁，都是數字化過的世界。一旦面對物理世界，一扇門、一段動作、一個表情，它們是失明的。

從今天的大模型，到能真正讀懂物理世界的所謂「具身智能」，中間有一道鴻溝，現在沒有人說得清楚怎么填。

這道鴻溝，是胡柏山在博鰲亞洲論壇上花了最多時間講的一件事。

胡柏山是 vivo 總裁兼首席運營官。在博鰲亞洲論壇，他告訴愛范兒，自己有一個很直接的判斷：「在明確的物理大模型沒有出來之前，要有好的體驗，就要把物理世界的信息轉化到數字世界。」

他相信，這件事，不僅手機可以做，而且應該用手機去做。甚至在未來十年里，其它設備都很難替代。

過去兩年，幾乎所有手機廠商都在說「AI 手機」。大模型接入、智能助手升級、端側算力提升，這些能力以肉眼可見的速度在普及。

去年 DeepSeek 橫空出世，今年 OpenClaw 引爆討論，各家都在搶著把最新的模型能力塞進自己的產品。

這場軍備競賽，有一個必然的結局：大模型的高度商品化、同質化、可替代化。

拼模型能力，沒有護城河。

你比友商快三個月上線某大模型，以及大模型驅動的 agent 功能；友商六個月后跟上，用的模型和 agent 能力都比你更強。時間上的領先、花費的金錢和精力，卷出的工時和損耗的員工健康，價值又是什么？

于是，真正的差異化只能在別處找。

vivo 給出的答案是「感知」。

感知，是 vivo 剛剛成立的新技術賽道。

中外互聯網公司和手機品牌紛紛加速進軍「AI 手機」。行業一度以為模型能力會成為手機廠商的護城河。

在胡柏山看來，實際并非如此。「相比模型而言，積累下來的場景數據才最有差異化。」緊接著他補了一句：「當然，該做還是要做，要做就找適合我們的，可以做慢一點，晚一點也 ok。」

當被問及「如果不看好大語言模型，vivo 會否發力世界模型」時，他的回答更加保守卻又直接：「世界模型也很大。我們還是找適合我們的技術路徑。我們先把手機模型搞好，小模型搞好。」

當今 AI / 互聯網科技巨頭大打人才爭奪戰，頂級研究精英如 NBA 巨星般搶手，轉會費一再突破新高。但胡柏山并不認為 vivo 應該為這團火再添柴。他告訴愛范兒，先想清楚思路，看清方向，定好技術平臺，再發力，完全不遲。

在這個所有人都在比拼模型能力和 AI 人才儲備的時間點上，掌門人直接把 vivo 的優劣勢與行動綱領展開在媒體面前。這種坦誠令人印象深刻：vivo 的穩健、謹慎，究竟有何用意？

胡柏山在博鰲亞洲論壇峰會接受媒體采訪

胡柏山回應稱，vivo 從不回避競爭。相比模型、算力，未來最大的差異化是來自于場景數據。

場景數據，是跟著使用行為逐漸積累的，不能批發，不能抄近路——影像數據尤其如此。經過十年光學硬件積累、用真實場景訓練出來的感知判斷，沒有捷徑。

而這些積累與判斷，構成了 vivo 接下來押注的「感知」的底層。這些東西，其他人（無論友商還是互聯網/AI 公司）想要，也只能自己去積累。

這就回到了剛才那道鴻溝。大模型的訓練數據是互聯網信息，而這些信息已經被數字化。但現實世界里大多數有價值的信息，還沒被數字化。那些無法或很難被轉化，或者轉化起來成本極高的數據，成為了 AI 走向現實世界的障礙。

光線、空間、人臉、動作、情緒，這些東西存在于物理世界，需要被感知、被轉化，才能成為模型可以處理的輸入。誰的感知做得好，誰就控制了大模型進入現實世界的那扇門。

現在，沒有人知道這扇門后面是什么，也沒有人知道最后會是誰站在那里。

感知不只是「更好的相機」，這一點 vivo 很清楚。

胡柏山說，相機是記錄工具，它等你按下快門。但感知是另一件事：持續觀察、理解正在發生什么，把這些信息轉化成設備可以直接使用的輸入。7×24 小時，不需要你觸發。

從「記錄」到「感知」，中間隔著一個系統架構的重建。

胡柏山給這件事起了個名字：「感知一體」。字面意思，是感知到的信息和設備的決策系統要即時打通。這一點，現在還做不到。

難點在于，原始的感知場景數據，比如一段視頻、一張圖、麥克風收到的聲音，體量巨大，格式混亂，里面大部分是噪聲。把這些原始信號轉化成手機真正「讀得懂」的結構化信息，需要一整套專門的處理鏈路。

「怎么把場景數據轉換成手機能夠讀懂的數據，是最難的。這個領域開源資源少，需要自主探索，」他說。

這也是為什么 vivo 在內部把感知設為一級技術賽道。

「一級」意味著感知不再是影像部門下面的一個子方向，它會統攬包括視、聽、嗅、觸等多種感官種類，和感知方向。

不過，vivo 的感知研究與研發工作仍處在初期階段。胡柏山用 vivo 的通信研究院做了一個類比：大約 200 人的團隊，從 4G 開始持續投入，走過 5G，現在在做 6G，已經十幾年了。

對于感知賽道，他的預期是相似的節奏：小團隊作戰，先構建認知。認知清晰了，開始加油門；等待軟硬件生態成熟了后，油門再往下踩。「有一種漸進式加速、螺旋上升的感覺。我們拒絕一腳油門一腳剎車。」

胡柏山不希望 vivo 做感知計算，以及做任何事情，出現拍腦門、砸大錢的做法。他認為，感知是一個天花板很高，但今天沒人能說清楚正確的技術演進路線是什么的東西。「我們準備好用五年、十年的周期來持續投入。但我們對這件事的認知獲取，要循序漸進。認知沒到，砸錢都是爛尾工程。」

感知賽道是一個判斷，但判斷要落地，需要現成的積累。

vivo 的底牌是十年影像。具體看，這十年沉淀的東西有兩層。

第一層是硬件。與蔡司的合作，如今已經走到了聯合研發的深水階段，傳感器尺寸這一輪 X300 Ultra 的主攝升到了 1/1.12 英寸，和索尼的合作在往提升半導體轉化效率的方向走——他提到了感官技術方面的「雪崩效應」，一種可以把感光元件的進光轉化率，從 90% 推到 110% 以上甚至更高的新技術路徑。

在硬件層面，胡柏山的判斷和行業觀察者及媒體大致相同，傳感器尺寸已經卷到了邊際收益遞減的階段，接下來更大的空間在轉化效率和外掛形態——在 X300 Ultra 上，vivo 已經做了 200mm、400mm 定焦增距鏡，還有更多在路上。

第二層是算法和認知。

vivo 三年前提出長焦大底，兩年后全行業跟上。但跟上硬件很容易，「為什么是那個時間點做這件事」，這個判斷很難。vivo 為什么選擇在那個時間點上做這件事，動機來自于在影像上多年領跑的經驗所形成的認知——沒有可以搬運和復制的捷徑。

「算法跟認知強相關——認知知道要什么方向，算法匹配，這是需求和技術的有機結合，對手很難快速跟上。」

這個邏輯延伸到端側 AI 上同樣成立。在 X300 Ultra 上，vivo 首次提出了一種「多 agent」理念，也即：

你舉起手機拍一張照片，有個 agent 在判斷你在拍什么、用多遠的焦段、在什么光線下——這個判斷，以前需要用戶自己去做。而另一個 agent 在整理你的相冊，根據你過去的修圖習慣推薦或自動添加濾鏡，又或者它能自動把幾段素材剪成一條可以直接發的短視頻。

這不是那種統一的「超級 agent」，比如 Gemini 或豆包手機助手那樣的，而是每個場景一個專項 agent，既互通有無，又各干各的。

胡柏山的理由很實際：現有的硬件算力撐不起一個什么都管的大 agent，手機AI的發展要結合硬件的能力上限來推進。

這些工作仰仗 vivo 在端側 AI 推理上的持續投入。據愛范兒了解，vivo 是手機廠商當中目前在算力購買上花錢最多的——不僅是云端算力，接下來的押注方向，是在旗艦機上嵌入專用的算力芯片。

vivo 的節奏是：先把不要求實時響應的 agent 做好，影像和相冊是當前優先級；全域感知是五到十年的目標，always-on、全時段在線、所有感官打通，這是最終的方向。

今后十年的 vivo，會去往什么方向？

胡柏山給了一個大概的路線圖：手機是現在用戶的核心產品，往后至少 10 年也仍然不變；MR 需要三到四年；機器人是五年以上。

這三個方向不是各自獨立的押注，底層是同一套感知能力在不同形態上的延伸。

vivo 去年成立了機器人 Lab，聚焦「大腦和眼睛」。當被問及目前進展如何，胡柏山很直接地攤牌：「2025年把階段性目標梳理地更加清楚，2026年進入整個路徑的清晰規劃。」

但這對于 vivo 來說并不是問題。

在一個各家都在發布機器人樣機、爭相宣稱「具身智能元年」的節點，承認自己還沒手搓出實物，是一種不多見的坦誠。胡柏山說「手搓一個機器人不是我們要干的。」

vivo 的機器人邏輯，和感知賽道的投入邏輯是一套：先想清楚目標用戶是誰，再定義場景，再識別核心技術控制點，再等技術成熟度到位。

胡柏山告訴愛范兒，目前 vivo 還在論證第一步。他們傾向于服務年輕人，這也正是 vivo 從旗艦到年輕系列產品線一直希望搶占心智的群體。vivo 的第一代家庭機器人，可能的起點，是照顧寵物和疊衣服也說不定。

但這個場景，會不會太小？胡柏山認為，不能一上來就做通用機器人，不可能剛一開始就把所有的場景都做好。如果你非要那么做，最終的結果也只能是每個場景都不及格。

誠然，今天的具身智能機器人，可能做預錄制的舞蹈能做到一百分，其他場景都沒有足夠的說服力。特別是在家務場景，「就說打雞蛋這件事，想要做到百分百成功率，人都不一定，機器人十年內也做不到。」

胡柏山希望，vivo 的機器人能夠先把一件具體的事情做到 60-70 分，然后一代一代泛化，優化現有的場景，再獲得新的能力。

喂好了寵物，場景數據就來了。場景數據夠了，機器人就知道這只狗每天幾點餓，進而知道這家人幾點起床，進而知道這家人的生活節律。不需要一步到位，因為每一步都在為下一步備料。胡柏山管這叫「沿途下蛋」。

這個邏輯，和在手機端押注感知的邏輯，是統一的：先把影像 agent 做好，場景數據夠了，感知能力才往外延伸。

但在機器人的旁邊，手機扮演什么角色？「手機是最懂你的隨身數字助理。你的行為習慣、偏好、你喜歡養什么寵物，都在手機里。」胡柏山說，機器人早期做不好的事，手機可以遙控介入補足。

就像自動駕駛的早期，人類一直在干預，干預產生數據，數據讓系統越來越好。「手機和機器人之間，場景數據是打通的。」

當然，他也沒有把話說滿。感知這個賽道，其他人也在做。包括蘋果、谷歌等在內都有自己的感知計算框架。vivo 在這個方向上的競爭空間，更多在手機端的小模型感知這個細分方向。這是除了蘋果以外的大廠，暫時沒有重點關注的地方。

今年，胡柏山給機器人 Lab 設的任務，是把路徑圖畫出來：目標用戶、核心場景、關鍵技術節點、以及「技術成熟到可以商業化」的時間預期。

vivo 叫停了 AI 眼鏡項目。他算了一筆賬：一年幾十萬臺，不符合目標體量；兩年內又做不出差異化；技術平臺目前也撐不起 80 分以上的體驗（超過 30g 戴在鼻子上會很累）——三個條件一個都沒過，砍掉沒毛病。

「三年后做也不著急，它不是關鍵品類。」

不過，這個決定放在今天的背景下，還是有點逆勢。2025 年 AI 眼鏡是行業里最熱的新品類之一，這個事實有目共睹。Ray-Ban Meta 賣爆，國內跟進者一茬接一茬。

創始人兼 CEO 沈煒在年會上表示，vivo 今年的策略是「少押注，押重注」。vivo 選擇給 AI 眼鏡按下暫停鍵，但將感知賽道的存在地位升級，其實是統一的邏輯和篩選標準的一體兩面：一個賽道的天花板夠不夠高、vivo 自身的差異化屬性夠不夠、技術平臺能不能支撐長期投入。

這種思路，與近期 OpenAI 等在內的硅谷巨頭，摒棄「支線任務」，聚焦真正長板的思路不謀而合。

2026 年選定的道路，vivo 會走到哪，現在胡柏山也還給不出答案。感知一體化的技術難題還沒有解，端側專用芯片的落地有難度，機器人的路徑圖今年才剛開始畫。

胡柏山知道這些，也沒有回避。他說，認知到了加油門，認知沒到寧可慢。

手機行業正在經歷一個奇怪的時刻：換機周期拉長到四十個月，中國市場年銷量從高峰期的五億多部跌到現在約 2.5 億部，存量市場的天花板清晰可見；但 AI 帶來的能力躍升，又讓所有人覺得什么地方似乎還藏著一點增量。

胡柏山的判斷是，從 Smartphone（智能手機）到 Agent Phone（智能體手機），才是把存量市場變成增量市場的機會。而感知，是這個機會里他認為最難被復制的護城河。

接下來交給時間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.