網易首頁 > 網易號 > 正文申請入駐

龍蝦之后，為什么說「主動式智能」才是Agent的終極形態？

2026-03-24 10:14:27　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

一、當 AI 的進化被止于屏幕

OpenClaw 的爆火，不只是因為它能替你干活。

如果僅僅是自動化，市面上的 RPA 工具早就能做到。OpenClaw 真正讓人興奮的，是它展現出的主動性：基于對郵件、日程、聊天記錄的持續理解，主動幫你處理事務、主動推送你可能需要的信息。從 Reactive 到 Proactive 的跨越，讓整個行業第一次感受到：AI Agent 不只能「被使喚」，更能「替你想」。

但這種主動性有一個邊界，它止步于屏幕。

OpenClaw 的感知器是截屏和文件系統，記憶是聊天記錄和郵件歸檔。合上電腦走進真實生活，上下文鏈路就此中斷。會議室里一小時的討論、通勤路上偶然看到的書、午餐時的閑聊，對所有數字 Agent 都是感知盲區。

這不是 OpenClaw 的缺陷，而是所有數字 Agent 的結構性邊界。當視線從屏幕轉向現實，上下文的介質就從文本流變成了視聽流，這不是數據量的疊加，而是維度的跨越。

當現實世界本身成為 AI 的上下文，Agent 才有機會從數字世界的「主動幫你干活」，進化為現實生活里的「主動替你留心」，這就是 Proactive AI 從線上走向線下的起點。

沖著這個命題而來的，是 Looki 最新上線的 Proactive Intelligence Engine （Looki PIE）。

這家由 CMU 校友創辦的硬件初創公司，正在將自動駕駛「從感知到決策」的工程范式，遷移到一款 30g 的可穿戴設備上，試圖在現實世界中構建真正的主動智能。

二、從「被動記錄」到「主動判斷」

判斷一個 Agent 是否真正理解你的生活，最簡單的方法是看它敢不敢主動開口。

Looki L1 去年 8 月海外發售后引發了不小的關注，并在 12 月上線國內版本。在用戶社區里，它被稱為「人生回看器」，通過全天候的視聽記錄，為用戶梳理生活碎片、提供回溯與洞察。

但早期的交互模式仍是 Reactive 的：你問它「今天吃了什么」，它從視聽數據中提取答案；你讓它整理會議內容，它忠實執行。觸發點始終在用戶手里。

今天向國內用戶正式上線的最新版本，標志著這款產品的關鍵跨越。

Looki 從固定間隔采集升級為 AI 自主判斷「此刻是否需要記錄、是否需要給出反饋」的動態決策模式，它被團隊定義為「場景自適應式智能」（Scene-Adaptive Intelligence）。

這種「主動」是什么體感？讓我來分享一次真實的出差經歷。

佩戴 Looki 前往首都機場。過完安檢，第一條推送到了，它不是航班提醒，而是 Looki 識別到我進入候機區后，主動提醒：「你答應了給家里小寶貝們帶禮物，在機場挑點航天模型或者熊貓周邊吧。」它記住的不是日程條目，而是我幾天前某次對話中隨口提的一句話。

走進包子鋪還沒坐穩，第二條來了：「這 '返京第一口' 選得有老北京情懷！建議再配一碗小米粥或者炒肝，記得去調料區弄碟醋加點油辣椒，那才地道。」

它識別出了餐廳，還基于我的飲食偏好給出了搭配建議，這條推送的信息密度和個人化程度，已經超出了我對一個可穿戴設備的預期。

回到候機區，第三波推送到達：一份基于我此前設定的「AI 行業動態」偏好生成的當日新聞摘要：算力漲價、新融資，每條附有我關注的行業關聯分析；緊跟著是三條 T3 航站樓的冷知識，最后一條居然是關于天窗采光設計的，因為它記得我偏好「明亮日照辦公環境」。

一個小時，三個場景節點，四次主動判斷。每一次都融合了即時感知和歷史記憶，沒有一條需要我主動發起。坦白說，有幾條推送的時機之精準讓我有點意外：它確實在學習「什么時候該開口」。

這條體驗鏈背后的技術鏈路與 OpenClaw 截然不同。OpenClaw 從文本指令出發，經工具調用到結果反饋，在數字世界閉環。

Looki PIE 的起點是未經編輯的現實視聽片段，系統先「看懂」場景，再從全天行為時序中檢索記憶，判斷「此刻是否值得介入」，最終生成一條融合即時感知與歷史上下文的推送。

從 Reactive 到 Proactive，關鍵不在模型更大，而在讓現實世界成為持續供給的個人上下文。

三、主動判斷的兩個技術切面

在出差場景的「即時提醒」之外，翻到 APP 的另一個頁面「探索」，會發現一個更有想象力的功能入口：用戶可以用自然語言，自己定義 Agent 在什么條件下該做什么。

它本質上是一段為現實世界編寫「If...Then...」的提示詞。

我試著設了幾條：「每天一杯咖啡，多了提醒我克制」「到了餐廳幫我推薦菜」「開會時有任何洞察及時告訴我」「每天早上到公司，把我關心的信息發給我」。設定過程極簡，自然語言輸入即可。

這些規則的觸發邏輯和手機定時提醒完全不同。手機鬧鐘只能按時間或坐標響，而Looki 的觸發條件卻是場景語義：攝像頭捕捉到你面前第二杯咖啡才觸發健康提醒，識別出你走進餐廳在看菜單才推送推薦。

背后是一條完整管線：從自然語言的意圖解析、視覺特征提取，到實時場景匹配和多維上下文驗證。這套具身智能 Pipeline 通常存在于機器人實驗室，如今被壓進 30g 的日常設備。

不過，比「看懂場景」更難的是「決定什么時候開口」。

回看出差那四次推送：安檢后提醒買禮物：「進入商業區 + 有空閑 + 記得承諾 "同時滿足；進餐廳推薦 ——「正在做就餐決策 + 了解口味」；候機推新聞：「有碎片時間 + 偏好匹配」。每一次都是多因子時機決策，而非規則匹配。

我體驗下來最深的感受是：Proactive AI 的核心難度不在推送的內容質量，而在時機精度

同一條信息，忙時彈出是騷擾，閑時送達是貼心。對比來看，OpenClaw 的場景相對簡單：它只在用戶明確指令時行動，不需要在物理環境中判斷介入時機。但 Looki PIE 的挑戰更體現在物理世界的紛擾中，判斷和選擇時機比信息世界更困難。

這個分寸，就是 Proactive AI 最核心的技術挑戰。

四、為現實世界搭建一套全新的 Agent Harness

Looki PIE 是產品概念，落到工程層面是系統問題。

OpenClaw 的 Harness 為數字世界設計：所有輸入是文本態，所有操作在數字環境中。當 Agent 走出屏幕，面對混沌的視聽流和非確定性的現實場景，Harness 每一層都得重建。

在 Looki 的兩位創始人看來，自動駕駛本質上就是在為現實世界搭 Harness Engineering。從實時采集多模態數據、極低延遲完成場景理解，到做出決策并承擔后果。現在他們把同一套工程范式從道路平移到了日常生活。

首先是「看」的問題。

30g 設備、12 小時續航，感知模塊不可能常開。Looki PIE 突破在于端側部署了輕量化決策模型，根據環境光流和聲音波形實時判斷「此刻是否值得激活」。通勤時低頻運轉，會議或聚餐時自動加密采集。不是無差別地盯著你，而是學會什么時候該「睜眼」。

「看到」之后是「記住」。

Looki 面對的是一整天的視頻流和音頻流，一幀畫面的 token 消耗可能抵得上一封完整郵件，全量灌入模型既不經濟也會放大幻覺風險。據 CTO 劉博聰介紹，Looki 在云端構建了多層級上下文索引體系，按語義需求精準摘取最相關片段。出差場景中「你答應給孩子帶禮物」那條推送，靠的就是這套索引從數天前一段對話中打撈出一個承諾，在「用戶正在機場候機」的實時場景中將它激活。

最頂層是「決定說不說」。

感知和記憶提供了原料，但 Looki PIE 最終能否成立，取決于決策層在沒有明確指令時自主判斷此刻是否該行動。數字 Harness 不太需要糾結這個：行動由用戶指令確定性觸發。現實 Harness 必須多出這層主動決策能力，且容錯空間極小。

還有一件事繞不開：隱私。

Looki 采用端側過濾加 App 手動上傳的雙重門控，原始視聽數據不無差別上云。而動態感知機制在架構層面做了一件巧妙的事，設備不是時刻在錄，而是由 AI 判斷「此刻是否需要激活」，同一套決策邏輯同時服務于能力和隱私。

當感知范圍延伸到整個生活現場，隱私保障的質量直接決定產品生死。

五、從「個人上下文」到「數字直覺」

回到開篇。OpenClaw 讓行業看到了 Proactive AI 在數字世界的面貌，但只活在屏幕里的 Agent 覆蓋的終究是生活的一半。

Looki PIE 試圖覆蓋另一半。它證明了：現實世界的上下文，那些連續的視聽流、散落的行為軌跡、非結構化的生活碎片，可以被工程化地采集、結構化地記憶、智能化地調用，并以此支撐 Agent 做出主動判斷。

這條路還很長。執行力邊界、感知精度、隱私框架，都有大量未解命題。但方向清晰：當你的生活軌跡、所見所聞、與家人的對話沉淀為屬于你的「個人上下文」，AI 就不再需要你手動描述世界：它自己看到了、記住了、理解了，然后在你需要的時候，先你一步。

各路「龍蝦們」還在為數字世界的「斷片」焦頭爛額，而窗外的現實世界，作為上下文的新疆域，才剛剛被納入 AI 的視野。當 Agent 終于走出對話框，開始真正「看見」這片廣袤的現實，我們與 AI 的關系，或許才剛剛開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.