拼大腦,沒有護城河押注「感知」一切交給時間
![]()
今年春節,OpenClaw 火了。短短兩個月不到,它又冷下去了——又一場 AI 應用層面的熱鬧。
熱鬧散了,沒人知道下一個 OpenClaw 是誰,也沒人知道這些東西究竟在解決什么問題。
用影像旗艦手機拍下一張夜景當中的人臉,細節清晰到能看見眼眶里的水光。但手機可能并不清楚,主角剛才是否哭泣,也就無法理解這張佳作的情緒背景;再用長焦技能把數百米外的一個路人拉到面前,細節纖毫畢現。但你問手機:這個人是著急趕路,還是在找什么東西?手機仍然不知道。
今天的 agent 能寫代碼、能操控網頁、能把一份 PDF 整理成會議紀要。這些它都做得不錯。但這些事情有一個共同點:處理的全是人類已經事先轉好格式的信息。文件、數據庫、網頁,都是數字化過的世界。一旦面對物理世界,一扇門、一段動作、一個表情,它們是失明的。
從今天的大模型,到能真正讀懂物理世界的所謂「具身智能」,中間有一道鴻溝,現在沒有人說得清楚怎么填。
這道鴻溝,是胡柏山在博鰲亞洲論壇上花了最多時間講的一件事。
胡柏山是 vivo 總裁兼首席運營官。在博鰲亞洲論壇,他告訴愛范兒,自己有一個很直接的判斷:「在明確的物理大模型沒有出來之前,要有好的體驗,就要把物理世界的信息轉化到數字世界。」
他相信,這件事,不僅手機可以做,而且應該用手機去做。甚至在未來十年里,其它設備都很難替代。
![]()
過去兩年,幾乎所有手機廠商都在說「AI 手機」。大模型接入、智能助手升級、端側算力提升,這些能力以肉眼可見的速度在普及。
去年 DeepSeek 橫空出世,今年 OpenClaw 引爆討論,各家都在搶著把最新的模型能力塞進自己的產品。
這場軍備競賽,有一個必然的結局:大模型的高度商品化、同質化、可替代化。
拼模型能力,沒有護城河。
你比友商快三個月上線某大模型,以及大模型驅動的 agent 功能;友商六個月后跟上,用的模型和 agent 能力都比你更強。時間上的領先、花費的金錢和精力,卷出的工時和損耗的員工健康,價值又是什么?
于是,真正的差異化只能在別處找。
vivo 給出的答案是「感知」。
![]()
感知,是 vivo 剛剛成立的新技術賽道。
中外互聯網公司和手機品牌紛紛加速進軍「AI 手機」。行業一度以為模型能力會成為手機廠商的護城河。
在胡柏山看來,實際并非如此。「相比模型而言,積累下來的場景數據才最有差異化。」緊接著他補了一句:「當然,該做還是要做,要做就找適合我們的,可以做慢一點,晚一點也 ok。」
當被問及「如果不看好大語言模型,vivo 會否發力世界模型」時,他的回答更加保守卻又直接:「世界模型也很大。我們還是找適合我們的技術路徑。我們先把手機模型搞好,小模型搞好。」
當今 AI / 互聯網科技巨頭大打人才爭奪戰,頂級研究精英如 NBA 巨星般搶手,轉會費一再突破新高。但胡柏山并不認為 vivo 應該為這團火再添柴。他告訴愛范兒,先想清楚思路,看清方向,定好技術平臺,再發力,完全不遲。
在這個所有人都在比拼模型能力和 AI 人才儲備的時間點上,掌門人直接把 vivo 的優劣勢與行動綱領展開在媒體面前。這種坦誠令人印象深刻:vivo 的穩健、謹慎, 究竟有何用意?
![]()
胡柏山在博鰲亞洲論壇峰會接受媒體采訪
胡柏山回應稱,vivo 從不回避競爭。相比模型、算力,未來最大的差異化是來自于場景數據。
場景數據,是跟著使用行為逐漸積累的,不能批發,不能抄近路——影像數據尤其如此。經過十年光學硬件積累、用真實場景訓練出來的感知判斷,沒有捷徑。
而這些積累與判斷,構成了 vivo 接下來押注的「感知」的底層。這些東西,其他人(無論友商還是互聯網/AI 公司)想要,也只能自己去積累。
這就回到了剛才那道鴻溝。大模型的訓練數據是互聯網信息,而這些信息已經被數字化。但現實世界里大多數有價值的信息,還沒被數字化。那些無法或很難被轉化,或者轉化起來成本極高的數據,成為了 AI 走向現實世界的障礙。
光線、空間、人臉、動作、情緒,這些東西存在于物理世界,需要被感知、被轉化,才能成為模型可以處理的輸入。誰的感知做得好,誰就控制了大模型進入現實世界的那扇門。
現在,沒有人知道這扇門后面是什么,也沒有人知道最后會是誰站在那里。
感知不只是「更好的相機」,這一點 vivo 很清楚。
胡柏山說,相機是記錄工具,它等你按下快門。但感知是另一件事:持續觀察、理解正在發生什么,把這些信息轉化成設備可以直接使用的輸入。7×24 小時,不需要你觸發。
從「記錄」到「感知」,中間隔著一個系統架構的重建。
胡柏山給這件事起了個名字:「感知一體」。字面意思,是感知到的信息和設備的決策系統要即時打通。這一點,現在還做不到。
難點在于,原始的感知場景數據,比如一段視頻、一張圖、麥克風收到的聲音,體量巨大,格式混亂,里面大部分是噪聲。把這些原始信號轉化成手機真正「讀得懂」的結構化信息,需要一整套專門的處理鏈路。
「怎么把場景數據轉換成手機能夠讀懂的數據,是最難的。這個領域開源資源少,需要自主探索,」他說。
這也是為什么 vivo 在內部把感知設為一級技術賽道。
「一級」意味著感知不再是影像部門下面的一個子方向,它會統攬包括視、聽、嗅、觸等多種感官種類,和感知方向。
不過,vivo 的感知研究與研發工作仍處在初期階段。胡柏山用 vivo 的通信研究院做了一個類比:大約 200 人的團隊,從 4G 開始持續投入,走過 5G,現在在做 6G,已經十幾年了。
對于感知賽道,他的預期是相似的節奏:小團隊作戰,先構建認知。認知清晰了,開始加油門;等待軟硬件生態成熟了后,油門再往下踩。「有一種漸進式加速、螺旋上升的感覺。我們拒絕一腳油門一腳剎車。」
胡柏山不希望 vivo 做感知計算,以及做任何事情,出現拍腦門、砸大錢的做法。他認為,感知是一個天花板很高,但今天沒人能說清楚正確的技術演進路線是什么的東西。「我們準備好用五年、十年的周期來持續投入。但我們對這件事的認知獲取,要循序漸進。認知沒到,砸錢都是爛尾工程。」
感知賽道是一個判斷,但判斷要落地,需要現成的積累。
vivo 的底牌是十年影像。具體看,這十年沉淀的東西有兩層。
第一層是硬件。與蔡司的合作,如今已經走到了聯合研發的深水階段,傳感器尺寸這一輪 X300 Ultra 的主攝升到了 1/1.12 英寸,和索尼的合作在往提升半導體轉化效率的方向走——他提到了感官技術方面的「雪崩效應」,一種可以把感光元件的進光轉化率,從 90% 推到 110% 以上甚至更高的新技術路徑。
在硬件層面,胡柏山的判斷和行業觀察者及媒體大致相同,傳感器尺寸已經卷到了邊際收益遞減的階段,接下來更大的空間在轉化效率和外掛形態——在 X300 Ultra 上,vivo 已經做了 200mm、400mm 定焦增距鏡,還有更多在路上。
![]()
第二層是算法和認知。
vivo 三年前提出長焦大底,兩年后全行業跟上。但跟上硬件很容易,「為什么是那個時間點做這件事」,這個判斷很難。vivo 為什么選擇在那個時間點上做這件事,動機來自于在影像上多年領跑的經驗所形成的認知——沒有可以搬運和復制的捷徑。
「算法跟認知強相關——認知知道要什么方向,算法匹配,這是需求和技術的有機結合,對手很難快速跟上。」
這個邏輯延伸到端側 AI 上同樣成立。在 X300 Ultra 上,vivo 首次提出了一種「多 agent」理念,也即:
你舉起手機拍一張照片,有個 agent 在判斷你在拍什么、用多遠的焦段、在什么光線下——這個判斷,以前需要用戶自己去做。而另一個 agent 在整理你的相冊,根據你過去的修圖習慣推薦或自動添加濾鏡,又或者它能自動把幾段素材剪成一條可以直接發的短視頻。
這不是那種統一的「超級 agent」,比如 Gemini 或豆包手機助手那樣的,而是每個場景一個專項 agent,既互通有無,又各干各的。
胡柏山的理由很實際:現有的硬件算力撐不起一個什么都管的大 agent,手機AI的發展要結合硬件的能力上限來推進。
這些工作仰仗 vivo 在端側 AI 推理上的持續投入。據愛范兒了解,vivo 是手機廠商當中目前在算力購買上花錢最多的——不僅是云端算力,接下來的押注方向,是在旗艦機上嵌入專用的算力芯片。
vivo 的節奏是:先把不要求實時響應的 agent 做好,影像和相冊是當前優先級;全域感知是五到十年的目標,always-on、全時段在線、所有感官打通,這是最終的方向。
今后十年的 vivo,會去往什么方向?
胡柏山給了一個大概的路線圖:手機是現在用戶的核心產品,往后至少 10 年也仍然不變;MR 需要三到四年;機器人是五年以上。
這三個方向不是各自獨立的押注,底層是同一套感知能力在不同形態上的延伸。
vivo 去年成立了機器人 Lab,聚焦「大腦和眼睛」。當被問及目前進展如何,胡柏山很直接地攤牌:「2025年把階段性目標梳理地更加清楚,2026年進入整個路徑的清晰規劃。」
但這對于 vivo 來說并不是問題。
在一個各家都在發布機器人樣機、爭相宣稱「具身智能元年」的節點,承認自己還沒手搓出實物,是一種不多見的坦誠。胡柏山說「手搓一個機器人不是我們要干的。」
vivo 的機器人邏輯,和感知賽道的投入邏輯是一套:先想清楚目標用戶是誰,再定義場景,再識別核心技術控制點,再等技術成熟度到位。
胡柏山告訴愛范兒,目前 vivo 還在論證第一步。他們傾向于服務年輕人,這也正是 vivo 從旗艦到年輕系列產品線一直希望搶占心智的群體。vivo 的第一代家庭機器人,可能的起點,是照顧寵物和疊衣服也說不定。
但這個場景,會不會太小?胡柏山認為,不能一上來就做通用機器人,不可能剛一開始就把所有的場景都做好。如果你非要那么做,最終的結果也只能是每個場景都不及格。
誠然,今天的具身智能機器人,可能做預錄制的舞蹈能做到一百分,其他場景都沒有足夠的說服力。特別是在家務場景,「就說打雞蛋這件事,想要做到百分百成功率,人都不一定,機器人十年內也做不到。」
胡柏山希望,vivo 的機器人能夠先把一件具體的事情做到 60-70 分,然后一代一代泛化,優化現有的場景,再獲得新的能力。
喂好了寵物,場景數據就來了。場景數據夠了,機器人就知道這只狗每天幾點餓,進而知道這家人幾點起床,進而知道這家人的生活節律。不需要一步到位,因為每一步都在為下一步備料。胡柏山管這叫「沿途下蛋」。
這個邏輯,和在手機端押注感知的邏輯,是統一的:先把影像 agent 做好,場景數據夠了,感知能力才往外延伸。
但在機器人的旁邊,手機扮演什么角色?「手機是最懂你的隨身數字助理。你的行為習慣、偏好、你喜歡養什么寵物,都在手機里。」胡柏山說,機器人早期做不好的事,手機可以遙控介入補足。
就像自動駕駛的早期,人類一直在干預,干預產生數據,數據讓系統越來越好。「手機和機器人之間,場景數據是打通的。」
當然,他也沒有把話說滿。感知這個賽道,其他人也在做。包括蘋果、谷歌等在內都有自己的感知計算框架。vivo 在這個方向上的競爭空間,更多在手機端的小模型感知這個細分方向。這是除了蘋果以外的大廠,暫時沒有重點關注的地方。
今年,胡柏山給機器人 Lab 設的任務,是把路徑圖畫出來:目標用戶、核心場景、關鍵技術節點、以及「技術成熟到可以商業化」的時間預期。
vivo 叫停了 AI 眼鏡項目。他算了一筆賬:一年幾十萬臺,不符合目標體量;兩年內又做不出差異化;技術平臺目前也撐不起 80 分以上的體驗(超過 30g 戴在鼻子上會很累)——三個條件一個都沒過,砍掉沒毛病。
「三年后做也不著急,它不是關鍵品類。」
不過,這個決定放在今天的背景下,還是有點逆勢。2025 年 AI 眼鏡是行業里最熱的新品類之一,這個事實有目共睹。Ray-Ban Meta 賣爆,國內跟進者一茬接一茬。
創始人兼 CEO 沈煒在年會上表示,vivo 今年的策略是「少押注,押重注」。vivo 選擇給 AI 眼鏡按下暫停鍵,但將感知賽道的存在地位升級,其實是統一的邏輯和篩選標準的一體兩面:一個賽道的天花板夠不夠高、vivo 自身的差異化屬性夠不夠、技術平臺能不能支撐長期投入。
這種思路,與近期 OpenAI 等在內的硅谷巨頭,摒棄「支線任務」,聚焦真正長板的思路不謀而合。
2026 年選定的道路,vivo 會走到哪,現在胡柏山也還給不出答案。感知一體化的技術難題還沒有解,端側專用芯片的落地有難度,機器人的路徑圖今年才剛開始畫。
胡柏山知道這些,也沒有回避。他說,認知到了加油門,認知沒到寧可慢。
手機行業正在經歷一個奇怪的時刻:換機周期拉長到四十個月,中國市場年銷量從高峰期的五億多部跌到現在約 2.5 億部,存量市場的天花板清晰可見;但 AI 帶來的能力躍升,又讓所有人覺得什么地方似乎還藏著一點增量。
胡柏山的判斷是,從 Smartphone(智能手機)到 Agent Phone(智能體手機),才是把存量市場變成增量市場的機會。而感知,是這個機會里他認為最難被復制的護城河。
接下來交給時間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.