網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當(dāng)AI開始與世界“對視”，我們該如何重新理解“影像”

2026-03-27 17:58:41　來源: 源媒匯

廣東舉報

分享至

文源 | 源媒匯

作者 | 白河

“12歲它就退休嘍。”

“那你是不是眼睛也好了？”

一個尋常的傍晚，全盲視障博主“寶哥和他的導(dǎo)盲犬”還在街邊候車，路過兩位小朋友被導(dǎo)盲犬阿爾法吸引，隨即停下與寶哥聊天，當(dāng)其中一個女孩聽聞導(dǎo)盲犬到一定年齡就要退休后，用一個略顯稚氣的問題向?qū)毟鐖笠宰罴兇獾纳埔狻?/p>

來源：B站賬號“寶哥和他的導(dǎo)盲犬”視頻截圖

似乎在孩童眼中，阿爾法退休意味著寶哥的視力自然也會恢復(fù)，童言輕易說出比童話更美好的字句，然而現(xiàn)實生活并不總是盡如人意。

寶哥全名趙秋寶，今年44歲，9年前他因為視網(wǎng)膜色素變性在短短幾個月內(nèi)失去視力，沉重的打擊一度讓寶哥連續(xù)多月閉門不出，消沉過后，倔強的他漸漸意識到，作為一個曾擁有正常視力的視障人士，自己似乎可以用這種特殊經(jīng)歷為消除社會殘健隔閡做點什么。

于是，寶哥開始走出家門記錄日常，嘗試讓更多人看見一個視障人士的真實生活。

去年2月寶哥萌生了一個更大膽的計劃，那就是帶著導(dǎo)盲犬阿爾法，還有一臺配備無障礙功能的vivo手機環(huán)游中國。

來源：紀(jì)錄片《觸得到的遠方》，寶哥和導(dǎo)盲犬阿爾法走在路上

一人一狗一手機，從一座城市到另一座城市，寶哥總是不急不緩地走著，風(fēng)聲、腳步聲、偶爾的停頓或摸索，構(gòu)成一種近乎笨拙卻異常堅定的節(jié)奏，旅途中，阿爾法幫他掃清前行障礙，而手機則成為他新的“眼睛”。

借助vivo手機上搭載的“vivo看見”功能，寶哥不僅可以通過播報模式聽取手機拍攝到的各種場景、文本，還能夠與手機進行多輪對話互動，實現(xiàn)無障礙操作。

當(dāng)阿爾法停下休息時，他會舉起手機，把攝像頭對向街道、對向路牌、對向陌生人，通過“vivo看見”功能重新“看到”這個世界，每當(dāng)手機開始準(zhǔn)確地描述眼前場景時，寶哥也會輕輕點頭，仿佛自己親眼目睹一般。

來源：紀(jì)錄片《觸得到的遠方》，寶哥正在用“vivo看見”識別眼前的場景

除了街上場景識別，vivo手機還會幫他記住人們的衣著樣貌甚至表情，在南澳一艘漁船上，寶哥與一位80后漁民成為朋友，那天“vivo看見”告訴他，“面前是你的朋友章喜德，他雙臂交叉，面帶微笑，穿著一件深色長袖”，這種體驗早已超脫炫技層面，成為AI時代一種人與世界重新建立關(guān)系的過程。

有一次，寶哥在視頻里哽咽著說：“雖然眼睛看不見光了，但手機和科技，能帶給我光。”

這句話的分量，似乎要比近年很多技術(shù)發(fā)布會更能觸動人心，也更讓我們感到踏實，特別是在AI井噴式發(fā)展當(dāng)下，一些寶貴的個體經(jīng)驗仍在時刻提醒我們，技術(shù)真正落地的那一刻，除了要改變世界，還應(yīng)該讓更多人真正“看見”世界。

重新理解影像

不知何時開始，AI焦慮從曾經(jīng)的少數(shù)人幻覺變成一種普遍的群體疑惑現(xiàn)象。

大模型參數(shù)暴漲、生成能力躍遷、新的應(yīng)用形態(tài)層出不窮，AI版本迭代以小時甚至分鐘為計量單位，人們一邊享受著AI帶來的生產(chǎn)力解放，同時也在擔(dān)心有朝一日會跟不上AI發(fā)展步伐。

誠然，每當(dāng)社會進入技術(shù)迭代周期，總會有相似的狀況出現(xiàn)，從一百多年前第一次工業(yè)革命期間爆發(fā)的盧徳運動，到上世紀(jì)中葉計算機革命引發(fā)社會的技術(shù)焦慮癥（Technophobia），再到如今AI普及帶來的掉隊擔(dān)憂，人們在不斷適應(yīng)新技術(shù)同時普遍會萌發(fā)相應(yīng)的困惑與迷茫。

在這樣的矛盾中，我們有必要更進一步挖掘AI在效率、參數(shù)、性能之外的價值，也正是在這個意義上，我們或許需要重新理解一個被反復(fù)提及、同時也在AI時代悄然變化的概念——影像。

在過去很長一段時間里，影像的核心功能是“記錄”。

從膠片到數(shù)碼，從單反到手機，影像技術(shù)的進步方向是提升記錄的精度與效率，但在AI時代這個定義開始失效，因為AI本身并不能“看”。

無論再強大的大模型，其本質(zhì)上仍然停留在符號和數(shù)據(jù)的處理層面，AI可以理解語言、生成圖像視頻、提供策略，但它無法直接感知物理世界，它看不見光線、聽不見環(huán)境、觸摸不到空間，這就意味著如果沒有感知能力，AI再聰明也只是一個被困在屏幕里的“大腦”。

而影像正是在這一刻完成了角色轉(zhuǎn)換。

在AI普及語境下，影像不再只是純粹的記錄工具，而是成為AI進入物理世界的“入口”，通過光學(xué)系統(tǒng)、圖像傳感器、ISP處理、再到空間計算，影像技術(shù)完成了對現(xiàn)實世界的數(shù)字化映射，并進一步參與到三維結(jié)構(gòu)理解、場景識別乃至行為預(yù)測中。

換句話說，影像如今正在成為AI最重要的“感知系統(tǒng)”之眼，這也是為什么越來越多廠商開始重新審視影像的戰(zhàn)略價值。

對此，vivo給出的判斷尤為直接：算力終將趨同，而影像會成為真正的分水嶺，真正能讓一個智能設(shè)備“懂你”的，是它對這個世界的感知能力，AI只有走出云端、走入萬家燈火，在千千萬萬普通人的生活場景中，才能蓬勃發(fā)展。

這番判斷背后其實是vivo對技術(shù)路徑的重新排序，過去人們習(xí)慣認為AI的核心在“算”，但當(dāng)算力逐漸標(biāo)準(zhǔn)化之后，決定體驗差異的不再是“會不會算”，而是AI“看到了什么、如何理解”，并且如何反饋到現(xiàn)實世界。

基于這種認知，在博鰲亞洲論壇2026年年會上，vivo總裁、首席運營官胡柏山正式發(fā)布vivo“影像+AI”戰(zhàn)略規(guī)劃，旨在以影像為基礎(chǔ)構(gòu)建感知系統(tǒng)，驅(qū)動AI實現(xiàn)從數(shù)字世界到物理世界的關(guān)鍵跨越。

vivo總裁、首席運營官，vivo中央研究院院長胡柏山發(fā)表主題演講

如果說大模型提供的是“大腦”，那么影像就是讓這個大腦真正睜開眼睛的那部分，在胡柏山看來，科技的下一個十年，影像將與AI并駕齊驅(qū)，成為AI落地物理世界的“第一引擎”。

手機，仍然是AI落地的第一現(xiàn)場

一個常被忽略的事實是，AI再宏大也必須有一個“落點”，同理影像技術(shù)也需要載體支撐，而在未來相當(dāng)長一段時間里，這個落點與載體依然會是手機。

在博鰲亞洲現(xiàn)場，胡柏山提到真正的變革往往不是轟轟烈烈的宣言，而是潤物細無聲的滲透，回望過去，是個人電腦和智能手機率先將高深的技術(shù)轉(zhuǎn)變成人人可用的工具，而歷次技術(shù)革命證明消費終端始終是前沿技術(shù)走出實驗室，走進普羅大眾生活的最佳通道。

在他看來，在這一輪以人工智能為核心的新技術(shù)革命中，手機仍會成為AI落地的“第一現(xiàn)場”。

原因其實并不復(fù)雜，手機是目前消費市場唯一同時具備高頻使用、完整傳感器體系、以及穩(wěn)定算力的平臺，是人類與數(shù)字世界最緊密的接口，需要明確的是，低延遲、高隱私、離線可用的端側(cè)能力，本就是大眾級AI體驗的核心前提。

因此在未來很長一段時間里，手機將不僅是通訊工具，還將成為物理世界的感知樞紐，更是每個人的數(shù)字大腦。

值得關(guān)注的是，當(dāng)手機硬件迭代趨緩、功能趨同之后，人們對手機的期待不再是“更強”而是“更懂”，vivo的思路則是用“影像+AI”去重塑手機，基于這一雙核驅(qū)動，vivo正在構(gòu)建一套完整的感知體系。

在胡柏山看來，未來的手機將不再是被動等待指令的工具，而是一個能看見、能思考、能行動的“數(shù)字伙伴”，手機將從現(xiàn)在的Smart Phone進化為Agent Phone。

以即將發(fā)布的vivo X300 Ultra和vivo X300s為例，其核心變化不只是影像硬件升級，而是落地了“影像Agent”的應(yīng)用。簡單來說，手機不再只是執(zhí)行拍照指令，而是能夠基于場景理解，主動參與拍攝過程，例如識別環(huán)境、判斷構(gòu)圖、推薦參數(shù)，甚至根據(jù)用戶習(xí)慣給出個性化建議等

當(dāng)AI與影像進一步結(jié)合，用戶不再需要掌握所有攝影知識，設(shè)備會在理解場景的基礎(chǔ)上，幫拍攝者完成剩下的部分，對于普通用戶來說，這種變化的意義并不是要讓人變得更專業(yè)，而是要讓拍攝者更好地表達自我。

此外，未來vivo還將針對用戶高頻場景，為不同產(chǎn)品系列定制差異化的Agent體驗。

例如折疊旗艦X Fold系列將重點布局辦公、出行Agent，開會時它默默記錄，出差時它主動規(guī)劃航班、天氣、酒店；性能旗艦iQOO系列則聚焦游戲Agent，能夠自動優(yōu)化性能，錄制高光時刻，讓激情時刻不再錯過。

圍繞影像這一核心感知能力，vivo還在構(gòu)建一個更大的設(shè)備網(wǎng)絡(luò)：以手機為產(chǎn)品基石，向MR設(shè)備延伸，再到云臺相機、可穿戴設(shè)備，最終指向家庭機器人。

vivo連續(xù)五年亮相博鰲亞洲論壇

這些設(shè)備的共同點是它們都在“看”，手機記錄日常，頭顯理解空間，穿戴設(shè)備延伸感知邊界，機器人則將感知轉(zhuǎn)化為行動，它們不是孤立存在，而是共享同一套“視覺+大腦”的系統(tǒng)能力。

這套體系的關(guān)鍵不在于單點性能，而在于底層協(xié)同。

當(dāng)影像能力可以像積木一樣被復(fù)用、疊加、遷移，AI就不再依賴單一設(shè)備，而是形成一個連續(xù)的感知網(wǎng)絡(luò)，這也是vivo“智及萬物”的真正含義——不追求設(shè)備變多，目標(biāo)是讓感知能力在不同形態(tài)之間流動。

當(dāng)技術(shù)開始“看見人”

當(dāng)AI通過影像看見世界，接下來就不再只是技術(shù)問題。

因為“看見”本身就意味著進入，AI通過鏡頭進入到我們的空間、生活甚至記憶，影像與AI的結(jié)合正在把技術(shù)從工具層推向更深的層次，它開始理解人的習(xí)慣、記錄人的軌跡、甚至參與構(gòu)建一個人的“數(shù)字形象”。

在某種意義上我們時刻都在生成自己的“數(shù)字DNA”，手機里的照片和視頻構(gòu)成了記憶的外殼；設(shè)備中的AI智能體在持續(xù)學(xué)習(xí)我們的偏好、行為與關(guān)系，當(dāng)兩者疊加，一個關(guān)于“自己”的數(shù)字畫像就逐漸清晰。

這聽起來很誘人也同樣令人不安，因為問題尖銳且直接：這些數(shù)據(jù)屬于誰？又該由誰來守護？

vivo的回答是把這一倫理“邊界”前置到技術(shù)架構(gòu)之中，通過芯片級安全體系將隱私保護嵌入底層，這種路徑的意義在于拓展能力的同時預(yù)設(shè)約束，不用等問題出現(xiàn)再補救。

克制與安全理念背后，更值得關(guān)注的是vivo一貫對待技術(shù)的態(tài)度，在去年的博鰲亞洲論壇上，胡柏山提到“科技的高度，終須回歸人的尺度”，這句話在今天聽起來變得前所未有的重要。

因為當(dāng)我們賦予AI眼睛，當(dāng)AI開始與世界“對視”，它看到的已經(jīng)超越矩陣、結(jié)構(gòu)和數(shù)據(jù)，開始滲入到人的情緒、感知甚至人性，正因如此，如今我們真正需要理解的不再是技術(shù)本身，而是人與技術(shù)、社會與技術(shù)的關(guān)系。

在這個語境下，影像從記錄現(xiàn)實、參與理解再到成為感知系統(tǒng)，這一變化軌跡其實也映射著AI的迭代路徑，AI從工具到伙伴再到我們的“數(shù)字分身”，在這個演變過程中，vivo始終認為，技術(shù)必須服務(wù)于人而不是替代人。

就像寶哥行走中國的經(jīng)歷那樣，當(dāng)一名視障人士借助vivo手機重新進入世界時，我們開始意識到所謂“看見”并不局限在視覺層面，而是不同群體都可以通過前沿技術(shù)重新回到社會，建立連接。

寶哥用手機“看見”的遠不僅是路標(biāo)和街道，還有人與人之間的連接，陌生人的善意、城市的變遷、社會的溫度通過手機、通過AI、通過鏡頭逐一展示在寶哥眼前，這或許才是“AI+影像”真正的意義，它并不是要替代人的感知，而是不斷延伸人與世界之間的連接。

同樣地，如果說AI的未來一定要有一個方向，那么它不應(yīng)該只是更聰明，而應(yīng)該更接近人，毫無疑問，“影像”就是這條路徑上最關(guān)鍵的那雙眼睛。

部分圖片引用網(wǎng)絡(luò) 如有侵權(quán)請告知刪除

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.