網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊混元團(tuán)隊(duì)打造手機(jī)AI助手突破：從失敗中學(xué)習(xí)的智能操作系統(tǒng)

2026-04-02 20:48:42　來(lái)源: 科技行者

北京舉報(bào)

分享至

當(dāng)你拿起手機(jī)想要完成一個(gè)復(fù)雜任務(wù)時(shí)，比如錄制一段音頻并保存到特定文件夾，或者打開(kāi)某個(gè)應(yīng)用調(diào)整設(shè)置，你可能需要點(diǎn)擊十幾個(gè)不同的按鈕，在各種菜單間跳轉(zhuǎn)。如果操作失誤，往往需要重新開(kāi)始。現(xiàn)在，騰訊混元團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為UI-Voyager的AI助手，它不僅能自動(dòng)完成這些復(fù)雜的手機(jī)操作任務(wù)，更重要的是，它能從每一次操作失誤中學(xué)習(xí)，變得越來(lái)越聰明。

這項(xiàng)突破性研究發(fā)表于2026年3月，由騰訊混元實(shí)驗(yàn)室主導(dǎo)完成，研究編號(hào)為arXiv:2603.24533v1。研究團(tuán)隊(duì)開(kāi)發(fā)的這個(gè)4B參數(shù)的AI模型在AndroidWorld基準(zhǔn)測(cè)試中取得了81.0%的成功率，不僅超越了所有現(xiàn)有的大型模型，甚至超過(guò)了人類(lèi)操作員80.0%的表現(xiàn)水平，這在手機(jī)自動(dòng)操作領(lǐng)域可謂是一個(gè)里程碑式的成就。

傳統(tǒng)的手機(jī)AI助手往往只能完成一些預(yù)設(shè)的簡(jiǎn)單操作，而UI-Voyager的獨(dú)特之處在于它能夠?qū)W會(huì)復(fù)雜的多步驟操作，更關(guān)鍵的是它擁有一種"從錯(cuò)誤中學(xué)習(xí)"的能力。就像一個(gè)聰明的學(xué)生，它不會(huì)因?yàn)橐淮慰荚囀【头艞墸菚?huì)仔細(xì)分析自己在哪個(gè)環(huán)節(jié)出了問(wèn)題，然后在下次遇到類(lèi)似情況時(shí)做出正確的選擇。

一、打破傳統(tǒng)：讓AI從失敗中獲得智慧

在現(xiàn)實(shí)生活中，我們學(xué)習(xí)新技能時(shí)往往是通過(guò)試錯(cuò)來(lái)進(jìn)步的。學(xué)騎自行車(chē)時(shí)，我們可能會(huì)摔倒很多次，但每次摔倒都能讓我們更好地理解平衡的要領(lǐng)。然而，傳統(tǒng)的AI訓(xùn)練方法就像只給學(xué)生看標(biāo)準(zhǔn)答案，而從不分析錯(cuò)誤答案為什么是錯(cuò)的。這種方法在處理復(fù)雜的手機(jī)操作任務(wù)時(shí)顯得力不從心。

騰訊混元團(tuán)隊(duì)意識(shí)到，在手機(jī)操作這樣的復(fù)雜任務(wù)中，失敗的操作軌跡實(shí)際上包含著大量有價(jià)值的學(xué)習(xí)信息。比如，當(dāng)AI嘗試打開(kāi)設(shè)置菜單時(shí)，它可能會(huì)先錯(cuò)誤地點(diǎn)擊了通知欄，然后才找到正確的設(shè)置圖標(biāo)。這個(gè)"先錯(cuò)后對(duì)"的過(guò)程中，錯(cuò)誤的那一步同樣包含著重要的學(xué)習(xí)價(jià)值，它告訴AI哪些操作是無(wú)效的，應(yīng)該避免。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的AI訓(xùn)練方法主要存在兩個(gè)致命缺陷。第一個(gè)問(wèn)題是效率低下的失敗學(xué)習(xí)機(jī)制。當(dāng)AI完成一個(gè)需要20多個(gè)步驟的復(fù)雜任務(wù)時(shí)，如果最終失敗了，傳統(tǒng)方法會(huì)簡(jiǎn)單地將整個(gè)操作序列標(biāo)記為"失敗"，而無(wú)法精確定位是第5步的錯(cuò)誤點(diǎn)擊還是第15步的錯(cuò)誤滑動(dòng)導(dǎo)致了最終失敗。這就像一個(gè)老師只會(huì)給學(xué)生的整張?jiān)嚲泶騻€(gè)"不及格"，而不會(huì)指出具體哪道題做錯(cuò)了。

第二個(gè)問(wèn)題是模糊的責(zé)任分配機(jī)制。在長(zhǎng)序列的操作中，AI往往無(wú)法準(zhǔn)確判斷哪一個(gè)具體步驟導(dǎo)致了任務(wù)失敗。這種模糊性使得AI很難從失敗經(jīng)驗(yàn)中提取有用的改進(jìn)信息，就像一個(gè)廚師知道菜品最終不好吃，但不知道是調(diào)料放多了還是火候不對(duì)。

二、創(chuàng)新架構(gòu)：兩階段自我進(jìn)化的學(xué)習(xí)系統(tǒng)

面對(duì)這些挑戰(zhàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練系統(tǒng)，這個(gè)系統(tǒng)的工作原理就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)徒工一樣循序漸進(jìn)。

第一階段被稱(chēng)為"拒絕式微調(diào)"，這個(gè)名字聽(tīng)起來(lái)有些嚴(yán)厲，但實(shí)際上是一個(gè)非常聰明的篩選機(jī)制。想象一下，你正在教一個(gè)學(xué)徒如何制作復(fù)雜的工藝品。在這個(gè)階段，你不會(huì)直接糾正他的每一個(gè)錯(cuò)誤動(dòng)作，而是讓他自由嘗試，然后只保留那些最終成功的作品作為學(xué)習(xí)樣本。這種方法讓AI能夠在大量的嘗試中自然地發(fā)現(xiàn)有效的操作模式。

具體來(lái)說(shuō)，系統(tǒng)會(huì)讓AI模型針對(duì)同一個(gè)任務(wù)生成多個(gè)不同的操作方案，然后通過(guò)一個(gè)自動(dòng)驗(yàn)證器來(lái)判斷哪些方案能夠成功完成任務(wù)。只有那些被驗(yàn)證為成功的操作序列才會(huì)被保留下來(lái)，作為下一輪訓(xùn)練的高質(zhì)量數(shù)據(jù)。這個(gè)過(guò)程會(huì)不斷重復(fù)，每一輪都會(huì)產(chǎn)生更好的訓(xùn)練數(shù)據(jù)，從而推動(dòng)模型能力的持續(xù)提升。

經(jīng)過(guò)三輪這樣的迭代訓(xùn)練，模型的成功率從最初的37%大幅提升到了73%，這個(gè)進(jìn)步幅度相當(dāng)可觀。但研究團(tuán)隊(duì)并沒(méi)有滿足于此，他們知道真正的突破還在后面。

第二階段是整個(gè)系統(tǒng)的核心創(chuàng)新，被稱(chēng)為"群組相對(duì)自蒸餾"。這個(gè)名字雖然聽(tīng)起來(lái)很技術(shù)化，但其背后的理念非常直觀。設(shè)想你正在教一群學(xué)生解決同一道數(shù)學(xué)題，有些學(xué)生找到了正確答案，有些學(xué)生做錯(cuò)了。傳統(tǒng)的做法是簡(jiǎn)單地告訴錯(cuò)誤的學(xué)生"你做錯(cuò)了"，但更聰明的做法是找到他們與正確學(xué)生的解題路徑在哪一步開(kāi)始分叉，然后針對(duì)性地糾正那個(gè)關(guān)鍵分叉點(diǎn)。

這種方法的精妙之處在于"分叉點(diǎn)檢測(cè)"技術(shù)。系統(tǒng)會(huì)仔細(xì)比較成功和失敗的操作序列，尋找它們開(kāi)始出現(xiàn)差異的關(guān)鍵節(jié)點(diǎn)。比如，在一個(gè)"打開(kāi)文件管理器并找到特定文件"的任務(wù)中，成功的操作可能是向下滑動(dòng)打開(kāi)通知欄，而失敗的操作可能是向上滑動(dòng)嘗試打開(kāi)應(yīng)用抽屜。系統(tǒng)能夠精確識(shí)別出這個(gè)關(guān)鍵的分叉點(diǎn)，然后將正確的操作方法教授給失敗的嘗試。

為了實(shí)現(xiàn)這種精確的分叉點(diǎn)檢測(cè)，研究團(tuán)隊(duì)采用了一種叫做SSIM（結(jié)構(gòu)相似性指數(shù)）的圖像比較技術(shù)。這種技術(shù)能夠準(zhǔn)確判斷兩個(gè)手機(jī)屏幕截圖是否顯示相同的界面狀態(tài)，從而確定成功和失敗的操作序列在哪一點(diǎn)開(kāi)始出現(xiàn)分歧。這就像有一雙能夠精確識(shí)別細(xì)微差別的眼睛，能夠發(fā)現(xiàn)兩個(gè)看似相似的界面之間的關(guān)鍵區(qū)別。

三、關(guān)鍵技術(shù)：精準(zhǔn)識(shí)別操作分叉點(diǎn)的智慧

分叉點(diǎn)檢測(cè)技術(shù)的工作原理可以用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。假設(shè)AI需要完成"錄制音頻并保存文件"這個(gè)任務(wù)，它會(huì)同時(shí)嘗試多種不同的操作路徑。成功的路徑可能是：打開(kāi)錄音應(yīng)用→點(diǎn)擊錄制按鈕→錄制完成→點(diǎn)擊停止→選擇保存位置→確認(rèn)保存。而失敗的路徑可能是：打開(kāi)錄音應(yīng)用→點(diǎn)擊錄制按鈕→錄制完成→點(diǎn)擊停止→誤點(diǎn)擊刪除按鈕→任務(wù)失敗。

通過(guò)比較這兩個(gè)路徑的屏幕截圖序列，系統(tǒng)能夠精確定位到分叉點(diǎn)發(fā)生在"錄制完成點(diǎn)擊停止"之后的那一步。在這個(gè)關(guān)鍵節(jié)點(diǎn)，成功路徑選擇了"保存"操作，而失敗路徑選擇了"刪除"操作。一旦識(shí)別出這個(gè)分叉點(diǎn)，系統(tǒng)就能構(gòu)建出高質(zhì)量的糾錯(cuò)訓(xùn)練樣本：在相同的界面狀態(tài)下，應(yīng)該選擇"保存"而不是"刪除"。

這種分叉點(diǎn)檢測(cè)不僅能夠處理明顯的錯(cuò)誤操作，還能識(shí)別更加細(xì)微的差別。比如，在瀏覽器中導(dǎo)航時(shí)，成功的操作可能是點(diǎn)擊"向下"按鈕移動(dòng)到正確位置，而失敗的操作可能是點(diǎn)擊"向右"按鈕撞到障礙物。雖然這兩個(gè)操作在某種意義上都是"導(dǎo)航操作"，但它們的結(jié)果截然不同。系統(tǒng)能夠識(shí)別出這種細(xì)微但關(guān)鍵的差別，從而提供精準(zhǔn)的糾錯(cuò)指導(dǎo)。

更令人印象深刻的是，這種分叉點(diǎn)可能出現(xiàn)在操作序列的任何位置，甚至是第一步。研究團(tuán)隊(duì)展示了一個(gè)"關(guān)閉藍(lán)牙"任務(wù)的例子，其中成功和失敗的操作從第一步就開(kāi)始分化：成功路徑是向下滑動(dòng)打開(kāi)通知欄，然后點(diǎn)擊快速設(shè)置中的藍(lán)牙圖標(biāo)；而失敗路徑則是向上滑動(dòng)嘗試打開(kāi)設(shè)置應(yīng)用。這種從一開(kāi)始就出現(xiàn)的分叉點(diǎn)同樣能夠被系統(tǒng)準(zhǔn)確捕捉和利用。

四、突破性成果：超越人類(lèi)表現(xiàn)的AI操作員

在AndroidWorld這個(gè)包含116個(gè)不同復(fù)雜任務(wù)的測(cè)試平臺(tái)上，UI-Voyager展現(xiàn)出了令人矚目的性能。這個(gè)測(cè)試平臺(tái)就像一個(gè)全面的"手機(jī)操作技能考試"，涵蓋了從簡(jiǎn)單的應(yīng)用啟動(dòng)到復(fù)雜的文件管理、系統(tǒng)設(shè)置調(diào)整等各種真實(shí)場(chǎng)景。

最終的測(cè)試結(jié)果讓整個(gè)研究團(tuán)隊(duì)都感到驚喜。僅有4B參數(shù)的UI-Voyager模型達(dá)到了81.0%的成功率，這個(gè)成績(jī)不僅超過(guò)了所有其他AI模型，包括那些參數(shù)量達(dá)到235B的超大型模型，更重要的是，它還超過(guò)了人類(lèi)操作員80.0%的基準(zhǔn)表現(xiàn)。

這個(gè)成果的意義不僅在于數(shù)字上的突破，更在于它證明了"從失敗中學(xué)習(xí)"這一理念的有效性。相比之下，傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法如GRPO和PPO在同樣的任務(wù)上只能達(dá)到76%左右的成功率，而且需要大量的訓(xùn)練時(shí)間才能達(dá)到這個(gè)水平。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，群組相對(duì)自蒸餾方法在那些最困難的任務(wù)上表現(xiàn)尤為出色。在一些成功率極低的復(fù)雜任務(wù)中，比如創(chuàng)建特定的播放列表、管理復(fù)雜的文件結(jié)構(gòu)等，這種方法能夠?qū)⒊晒β蕪慕咏闾嵘较喈?dāng)可觀的水平。這表明該方法特別適合處理那些需要精確操作序列的復(fù)雜任務(wù)。

更令人鼓舞的是，這種學(xué)習(xí)能力還體現(xiàn)在模型的適應(yīng)性上。當(dāng)面對(duì)新的、在訓(xùn)練中從未見(jiàn)過(guò)的任務(wù)時(shí)，UI-Voyager表現(xiàn)出了良好的泛化能力。這種泛化能力來(lái)源于它對(duì)操作失敗模式的深入理解，使其能夠在新情境中避免類(lèi)似的錯(cuò)誤。

五、實(shí)際應(yīng)用：改變我們與手機(jī)交互的方式

UI-Voyager的成功不僅是技術(shù)上的突破，更預(yù)示著我們與智能設(shè)備交互方式的根本性改變。在不久的將來(lái)，我們可能不再需要記憶復(fù)雜的操作步驟或在各種菜單中迷失方向。

考慮一個(gè)典型的使用場(chǎng)景：你想要在手機(jī)上完成一系列相關(guān)的任務(wù)，比如整理照片、創(chuàng)建相冊(cè)、分享給朋友，然后設(shè)置自動(dòng)備份。傳統(tǒng)上，這需要你在多個(gè)應(yīng)用之間切換，記住各種操作步驟，還要處理可能出現(xiàn)的各種異常情況。有了UI-Voyager這樣的AI助手，你只需要描述你的目標(biāo)，它就能自動(dòng)完成這整個(gè)復(fù)雜的操作流程。

更重要的是，這種AI助手具備了自我改進(jìn)的能力。當(dāng)它在某個(gè)特定的手機(jī)型號(hào)或應(yīng)用版本上遇到新的界面布局時(shí)，它能夠快速適應(yīng)并學(xué)習(xí)新的操作方法。這種適應(yīng)性對(duì)于處理不斷更新的移動(dòng)應(yīng)用生態(tài)系統(tǒng)來(lái)說(shuō)至關(guān)重要。

從技術(shù)發(fā)展的角度來(lái)看，UI-Voyager代表了AI從"執(zhí)行指令"向"理解意圖"轉(zhuǎn)變的重要一步。它不僅能夠執(zhí)行具體的操作命令，更能夠理解用戶的高層次目標(biāo)，并找到實(shí)現(xiàn)這些目標(biāo)的最佳路徑。即使在遇到意外情況或界面變化時(shí)，它也能夠靈活調(diào)整策略，找到替代的解決方案。

這種能力的應(yīng)用前景非常廣闊。除了個(gè)人手機(jī)使用，它還可以被集成到企業(yè)應(yīng)用中，幫助自動(dòng)化復(fù)雜的業(yè)務(wù)流程。比如，在客服系統(tǒng)中，AI可以自動(dòng)處理復(fù)雜的查詢(xún)和操作請(qǐng)求；在測(cè)試環(huán)節(jié)，它可以自動(dòng)執(zhí)行復(fù)雜的用戶界面測(cè)試；在無(wú)障礙技術(shù)領(lǐng)域，它可以為行動(dòng)不便的用戶提供更加智能的操作輔助。

六、技術(shù)挑戰(zhàn)與解決方案：完善細(xì)節(jié)的工程智慧

盡管取得了顯著成功，研究團(tuán)隊(duì)也誠(chéng)實(shí)地分享了開(kāi)發(fā)過(guò)程中遇到的技術(shù)挑戰(zhàn)和相應(yīng)的解決方案。這些挑戰(zhàn)的解決過(guò)程展現(xiàn)了團(tuán)隊(duì)在工程實(shí)現(xiàn)方面的深度思考。

首先是實(shí)時(shí)執(zhí)行環(huán)境帶來(lái)的復(fù)雜性。與實(shí)驗(yàn)室中的靜態(tài)測(cè)試環(huán)境不同，真實(shí)的手機(jī)操作環(huán)境是動(dòng)態(tài)變化的。屏幕可能在動(dòng)畫(huà)過(guò)程中被截圖，應(yīng)用可能正在加載，系統(tǒng)通知可能隨時(shí)彈出。這些動(dòng)態(tài)因素都會(huì)影響分叉點(diǎn)檢測(cè)的準(zhǔn)確性。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了一套時(shí)間感知的匹配算法。這套算法不是簡(jiǎn)單地比較單張截圖，而是在短時(shí)間窗口內(nèi)尋找最佳匹配，同時(shí)考慮了界面元素的動(dòng)態(tài)變化。比如，當(dāng)一個(gè)按鈕在加載過(guò)程中顯示不同的狀態(tài)時(shí)，算法能夠識(shí)別出這些狀態(tài)實(shí)際上代表相同的邏輯界面。

另一個(gè)挑戰(zhàn)是如何處理手機(jī)操作中的異步性和不確定性。不同的手機(jī)設(shè)備有不同的響應(yīng)速度，相同的操作在不同時(shí)刻可能產(chǎn)生微妙的時(shí)序差異。研究團(tuán)隊(duì)通過(guò)引入時(shí)序平滑機(jī)制和多候選匹配策略來(lái)應(yīng)對(duì)這種不確定性，確保系統(tǒng)能夠在各種設(shè)備條件下穩(wěn)定工作。

在操作空間的設(shè)計(jì)上，團(tuán)隊(duì)選擇了相對(duì)高層的操作原語(yǔ)，如點(diǎn)擊、滑動(dòng)、輸入文本等，而不是底層的像素級(jí)操作。這種選擇既簡(jiǎn)化了學(xué)習(xí)難度，又保持了足夠的表達(dá)能力。但同時(shí)，這也意味著系統(tǒng)無(wú)法處理一些需要精確手勢(shì)的高級(jí)操作。研究團(tuán)隊(duì)認(rèn)為，這種權(quán)衡在當(dāng)前階段是合理的，未來(lái)可以通過(guò)分層操作建模來(lái)擴(kuò)展到更復(fù)雜的操作類(lèi)型。

七、深度分析：為什么這種方法如此有效

UI-Voyager成功的關(guān)鍵在于它對(duì)失敗信息的充分利用。傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往將失敗樣本簡(jiǎn)單地丟棄或標(biāo)記為負(fù)樣本，但這種做法忽略了失敗樣本中蘊(yùn)含的豐富信息。

從信息論的角度來(lái)看，一個(gè)失敗的操作序列實(shí)際上包含了大量有價(jià)值的信息。它告訴我們?cè)谔囟ǖ臓顟B(tài)下，某些操作是無(wú)效的，應(yīng)該避免。更重要的是，通過(guò)與成功序列的對(duì)比，我們可以精確定位導(dǎo)致失敗的關(guān)鍵決策點(diǎn)。這種精確定位是傳統(tǒng)方法難以實(shí)現(xiàn)的。

群組相對(duì)自蒸餾方法的另一個(gè)優(yōu)勢(shì)是它的數(shù)據(jù)效率。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法需要大量的試錯(cuò)來(lái)學(xué)習(xí)有效策略，而這種方法能夠從相對(duì)較少的成功樣本中提取最大的學(xué)習(xí)價(jià)值。通過(guò)精確的分叉點(diǎn)識(shí)別，每個(gè)成功樣本都能夠糾正多個(gè)失敗樣本，大大提高了學(xué)習(xí)效率。

此外，這種方法還具有很好的可解釋性。當(dāng)系統(tǒng)做出某個(gè)操作決策時(shí)，我們可以追溯到具體的分叉點(diǎn)和糾錯(cuò)樣本，理解這個(gè)決策的來(lái)源。這種可解釋性對(duì)于構(gòu)建可信賴(lài)的AI系統(tǒng)來(lái)說(shuō)非常重要。

從認(rèn)知科學(xué)的角度來(lái)看，UI-Voyager的學(xué)習(xí)機(jī)制與人類(lèi)的學(xué)習(xí)過(guò)程有相似之處。人類(lèi)在學(xué)習(xí)復(fù)雜技能時(shí)，往往會(huì)通過(guò)對(duì)比成功和失敗的經(jīng)驗(yàn)來(lái)改進(jìn)自己的策略。專(zhuān)家和新手的一個(gè)重要區(qū)別就在于專(zhuān)家能夠更精確地識(shí)別關(guān)鍵的決策點(diǎn)，避免重復(fù)犯錯(cuò)。UI-Voyager的分叉點(diǎn)檢測(cè)機(jī)制在某種程度上模擬了這種專(zhuān)家級(jí)的錯(cuò)誤分析能力。

說(shuō)到底，UI-Voyager的成功展示了一個(gè)重要的研究理念：在AI系統(tǒng)的設(shè)計(jì)中，我們不應(yīng)該簡(jiǎn)單地模仿現(xiàn)有的方法，而應(yīng)該深入思考問(wèn)題的本質(zhì)，尋找更加符合任務(wù)特性的解決方案。手機(jī)操作任務(wù)的復(fù)雜性和動(dòng)態(tài)性要求AI系統(tǒng)具備強(qiáng)大的錯(cuò)誤恢復(fù)和自我糾正能力，而傳統(tǒng)的監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)方法在這方面都有其局限性。

騰訊混元團(tuán)隊(duì)的這項(xiàng)工作不僅在技術(shù)上取得了突破，更重要的是為AI研究提供了一種新的思路：如何更好地利用失敗信息來(lái)加速學(xué)習(xí)過(guò)程。這種思路有望在更多的AI應(yīng)用領(lǐng)域發(fā)揮作用，推動(dòng)整個(gè)行業(yè)向更加智能和高效的方向發(fā)展。雖然目前UI-Voyager主要應(yīng)用于AndroidWorld測(cè)試環(huán)境，但其核心理念和技術(shù)架構(gòu)為構(gòu)建更加智能的人機(jī)交互系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。隨著技術(shù)的進(jìn)一步完善和優(yōu)化，我們有理由期待在不久的將來(lái)看到更多基于這種"從失敗中學(xué)習(xí)"理念的AI產(chǎn)品進(jìn)入我們的日常生活，讓我們與智能設(shè)備的交互變得更加自然和高效。

Q&A

Q1：UI-Voyager是什么？

A：UI-Voyager是騰訊混元團(tuán)隊(duì)開(kāi)發(fā)的手機(jī)AI操作助手，它能自動(dòng)完成復(fù)雜的手機(jī)操作任務(wù)，比如打開(kāi)應(yīng)用、調(diào)整設(shè)置、管理文件等。它的特別之處在于能從操作失敗中學(xué)習(xí)改進(jìn)，就像一個(gè)會(huì)從錯(cuò)誤中吸取經(jīng)驗(yàn)的智能學(xué)徒。

Q2：UI-Voyager比人類(lèi)操作手機(jī)還厲害嗎？

A：是的，在AndroidWorld的116個(gè)測(cè)試任務(wù)中，UI-Voyager達(dá)到了81.0%的成功率，超過(guò)了人類(lèi)操作員80.0%的表現(xiàn)。更令人印象深刻的是，它只用了4B個(gè)參數(shù)就超越了許多參數(shù)量達(dá)到235B的大型AI模型。

Q3：普通人能使用UI-Voyager嗎？

A：目前UI-Voyager還處在研究階段，主要在AndroidWorld測(cè)試平臺(tái)上驗(yàn)證技術(shù)效果。但這項(xiàng)技術(shù)的成功為開(kāi)發(fā)實(shí)用的手機(jī)AI助手奠定了基礎(chǔ)，未來(lái)很可能會(huì)被集成到實(shí)際的手機(jī)系統(tǒng)或應(yīng)用中，幫助用戶自動(dòng)完成復(fù)雜操作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.