![]()
機器之心發布
一、當 AI 的進化被止于屏幕
OpenClaw 的爆火,不只是因為它能替你干活。
如果僅僅是自動化,市面上的 RPA 工具早就能做到。OpenClaw 真正讓人興奮的,是它展現出的主動性:基于對郵件、日程、聊天記錄的持續理解,主動幫你處理事務、主動推送你可能需要的信息。從 Reactive 到 Proactive 的跨越,讓整個行業第一次感受到:AI Agent 不只能「被使喚」,更能「替你想」。
但這種主動性有一個邊界,它止步于屏幕。
OpenClaw 的感知器是截屏和文件系統,記憶是聊天記錄和郵件歸檔。合上電腦走進真實生活,上下文鏈路就此中斷。會議室里一小時的討論、通勤路上偶然看到的書、午餐時的閑聊,對所有數字 Agent 都是感知盲區。
這不是 OpenClaw 的缺陷,而是所有數字 Agent 的結構性邊界。當視線從屏幕轉向現實,上下文的介質就從文本流變成了視聽流,這不是數據量的疊加,而是維度的跨越。
當現實世界本身成為 AI 的上下文,Agent 才有機會從數字世界的「主動幫你干活」,進化為現實生活里的「主動替你留心」,這就是 Proactive AI 從線上走向線下的起點。
沖著這個命題而來的,是 Looki 最新上線的 Proactive Intelligence Engine (Looki PIE)。
這家由 CMU 校友創辦的硬件初創公司,正在將自動駕駛「從感知到決策」的工程范式,遷移到一款 30g 的可穿戴設備上,試圖在現實世界中構建真正的主動智能。
二、從「被動記錄」到「主動判斷」
判斷一個 Agent 是否真正理解你的生活,最簡單的方法是看它敢不敢主動開口。
Looki L1 去年 8 月海外發售后引發了不小的關注,并在 12 月上線國內版本。在用戶社區里,它被稱為「人生回看器」,通過全天候的視聽記錄,為用戶梳理生活碎片、提供回溯與洞察。
![]()
但早期的交互模式仍是 Reactive 的:你問它「今天吃了什么」,它從視聽數據中提取答案;你讓它整理會議內容,它忠實執行。觸發點始終在用戶手里。
今天向國內用戶正式上線的最新版本,標志著這款產品的關鍵跨越。
Looki 從固定間隔采集升級為 AI 自主判斷「此刻是否需要記錄、是否需要給出反饋」的動態決策模式,它被團隊定義為「場景自適應式智能」(Scene-Adaptive Intelligence)。
這種「主動」是什么體感?讓我來分享一次真實的出差經歷。
![]()
佩戴 Looki 前往首都機場。過完安檢,第一條推送到了,它不是航班提醒,而是 Looki 識別到我進入候機區后,主動提醒:「你答應了給家里小寶貝們帶禮物,在機場挑點航天模型或者熊貓周邊吧。」它記住的不是日程條目,而是我幾天前某次對話中隨口提的一句話。
走進包子鋪還沒坐穩,第二條來了:「這 '返京第一口' 選得有老北京情懷!建議再配一碗小米粥或者炒肝,記得去調料區弄碟醋加點油辣椒,那才地道。」
它識別出了餐廳,還基于我的飲食偏好給出了搭配建議,這條推送的信息密度和個人化程度,已經超出了我對一個可穿戴設備的預期。
![]()
回到候機區,第三波推送到達:一份基于我此前設定的「AI 行業動態」偏好生成的當日新聞摘要:算力漲價、新融資,每條附有我關注的行業關聯分析;緊跟著是三條 T3 航站樓的冷知識,最后一條居然是關于天窗采光設計的,因為它記得我偏好「明亮日照辦公環境」。
一個小時,三個場景節點,四次主動判斷。每一次都融合了即時感知和歷史記憶,沒有一條需要我主動發起。坦白說,有幾條推送的時機之精準讓我有點意外:它確實在學習「什么時候該開口」。
這條體驗鏈背后的技術鏈路與 OpenClaw 截然不同。OpenClaw 從文本指令出發,經工具調用到結果反饋,在數字世界閉環。
Looki PIE 的起點是未經編輯的現實視聽片段,系統先「看懂」場景,再從全天行為時序中檢索記憶,判斷「此刻是否值得介入」,最終生成一條融合即時感知與歷史上下文的推送。
從 Reactive 到 Proactive,關鍵不在模型更大,而在讓現實世界成為持續供給的個人上下文。
三、主動判斷的兩個技術切面
在出差場景的「即時提醒」之外,翻到 APP 的另一個頁面「探索」,會發現一個更有想象力的功能入口:用戶可以用自然語言,自己定義 Agent 在什么條件下該做什么。
它本質上是一段為現實世界編寫「If...Then...」的提示詞。
我試著設了幾條:「每天一杯咖啡,多了提醒我克制」「到了餐廳幫我推薦菜」「開會時有任何洞察及時告訴我」「每天早上到公司,把我關心的信息發給我」。設定過程極簡,自然語言輸入即可。
![]()
這些規則的觸發邏輯和手機定時提醒完全不同。手機鬧鐘只能按時間或坐標響,而Looki 的觸發條件卻是場景語義:攝像頭捕捉到你面前第二杯咖啡才觸發健康提醒,識別出你走進餐廳在看菜單才推送推薦。
背后是一條完整管線:從自然語言的意圖解析、視覺特征提取,到實時場景匹配和多維上下文驗證。這套具身智能 Pipeline 通常存在于機器人實驗室,如今被壓進 30g 的日常設備。
不過,比「看懂場景」更難的是「決定什么時候開口」。
回看出差那四次推送:安檢后提醒買禮物:「進入商業區 + 有空閑 + 記得承諾 "同時滿足;進餐廳推薦 ——「正在做就餐決策 + 了解口味」;候機推新聞:「有碎片時間 + 偏好匹配」。每一次都是多因子時機決策,而非規則匹配。
我體驗下來最深的感受是:Proactive AI 的核心難度不在推送的內容質量,而在時機精度
同一條信息,忙時彈出是騷擾,閑時送達是貼心。對比來看,OpenClaw 的場景相對簡單:它只在用戶明確指令時行動,不需要在物理環境中判斷介入時機。但 Looki PIE 的挑戰更體現在物理世界的紛擾中,判斷和選擇時機比信息世界更困難。
這個分寸,就是 Proactive AI 最核心的技術挑戰。
四、為現實世界搭建一套全新的 Agent Harness
Looki PIE 是產品概念,落到工程層面是系統問題。
OpenClaw 的 Harness 為數字世界設計:所有輸入是文本態,所有操作在數字環境中。當 Agent 走出屏幕,面對混沌的視聽流和非確定性的現實場景,Harness 每一層都得重建。
在 Looki 的兩位創始人看來,自動駕駛本質上就是在為現實世界搭 Harness Engineering。從實時采集多模態數據、極低延遲完成場景理解,到做出決策并承擔后果。現在他們把同一套工程范式從道路平移到了日常生活。
首先是「看」的問題。
30g 設備、12 小時續航,感知模塊不可能常開。Looki PIE 突破在于端側部署了輕量化決策模型,根據環境光流和聲音波形實時判斷「此刻是否值得激活」。通勤時低頻運轉,會議或聚餐時自動加密采集。不是無差別地盯著你,而是學會什么時候該「睜眼」。
「看到」之后是「記住」。
Looki 面對的是一整天的視頻流和音頻流,一幀畫面的 token 消耗可能抵得上一封完整郵件,全量灌入模型既不經濟也會放大幻覺風險。據 CTO 劉博聰介紹,Looki 在云端構建了多層級上下文索引體系,按語義需求精準摘取最相關片段。出差場景中「你答應給孩子帶禮物」那條推送,靠的就是這套索引從數天前一段對話中打撈出一個承諾,在「用戶正在機場候機」的實時場景中將它激活。
最頂層是「決定說不說」。
感知和記憶提供了原料,但 Looki PIE 最終能否成立,取決于決策層在沒有明確指令時自主判斷此刻是否該行動。數字 Harness 不太需要糾結這個:行動由用戶指令確定性觸發。現實 Harness 必須多出這層主動決策能力,且容錯空間極小。
還有一件事繞不開:隱私。
Looki 采用端側過濾加 App 手動上傳的雙重門控,原始視聽數據不無差別上云。而動態感知機制在架構層面做了一件巧妙的事,設備不是時刻在錄,而是由 AI 判斷「此刻是否需要激活」,同一套決策邏輯同時服務于能力和隱私。
當感知范圍延伸到整個生活現場,隱私保障的質量直接決定產品生死。
五、從「個人上下文」到「數字直覺」
回到開篇。OpenClaw 讓行業看到了 Proactive AI 在數字世界的面貌,但只活在屏幕里的 Agent 覆蓋的終究是生活的一半。
Looki PIE 試圖覆蓋另一半。它證明了:現實世界的上下文,那些連續的視聽流、散落的行為軌跡、非結構化的生活碎片,可以被工程化地采集、結構化地記憶、智能化地調用,并以此支撐 Agent 做出主動判斷。
這條路還很長。執行力邊界、感知精度、隱私框架,都有大量未解命題。但方向清晰:當你的生活軌跡、所見所聞、與家人的對話沉淀為屬于你的「個人上下文」,AI 就不再需要你手動描述世界:它自己看到了、記住了、理解了,然后在你需要的時候,先你一步。
各路「龍蝦們」還在為數字世界的「斷片」焦頭爛額,而窗外的現實世界,作為上下文的新疆域,才剛剛被納入 AI 的視野。當 Agent 終于走出對話框,開始真正 「看見」這片廣袤的現實,我們與 AI 的關系,或許才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.