![]()
當(dāng)你拿起手機(jī)想要完成一個(gè)復(fù)雜任務(wù)時(shí),比如錄制一段音頻并保存到特定文件夾,或者打開(kāi)某個(gè)應(yīng)用調(diào)整設(shè)置,你可能需要點(diǎn)擊十幾個(gè)不同的按鈕,在各種菜單間跳轉(zhuǎn)。如果操作失誤,往往需要重新開(kāi)始。現(xiàn)在,騰訊混元團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為UI-Voyager的AI助手,它不僅能自動(dòng)完成這些復(fù)雜的手機(jī)操作任務(wù),更重要的是,它能從每一次操作失誤中學(xué)習(xí),變得越來(lái)越聰明。
這項(xiàng)突破性研究發(fā)表于2026年3月,由騰訊混元實(shí)驗(yàn)室主導(dǎo)完成,研究編號(hào)為arXiv:2603.24533v1。研究團(tuán)隊(duì)開(kāi)發(fā)的這個(gè)4B參數(shù)的AI模型在AndroidWorld基準(zhǔn)測(cè)試中取得了81.0%的成功率,不僅超越了所有現(xiàn)有的大型模型,甚至超過(guò)了人類(lèi)操作員80.0%的表現(xiàn)水平,這在手機(jī)自動(dòng)操作領(lǐng)域可謂是一個(gè)里程碑式的成就。
傳統(tǒng)的手機(jī)AI助手往往只能完成一些預(yù)設(shè)的簡(jiǎn)單操作,而UI-Voyager的獨(dú)特之處在于它能夠?qū)W會(huì)復(fù)雜的多步驟操作,更關(guān)鍵的是它擁有一種"從錯(cuò)誤中學(xué)習(xí)"的能力。就像一個(gè)聰明的學(xué)生,它不會(huì)因?yàn)橐淮慰荚囀【头艞墸菚?huì)仔細(xì)分析自己在哪個(gè)環(huán)節(jié)出了問(wèn)題,然后在下次遇到類(lèi)似情況時(shí)做出正確的選擇。
一、打破傳統(tǒng):讓AI從失敗中獲得智慧
在現(xiàn)實(shí)生活中,我們學(xué)習(xí)新技能時(shí)往往是通過(guò)試錯(cuò)來(lái)進(jìn)步的。學(xué)騎自行車(chē)時(shí),我們可能會(huì)摔倒很多次,但每次摔倒都能讓我們更好地理解平衡的要領(lǐng)。然而,傳統(tǒng)的AI訓(xùn)練方法就像只給學(xué)生看標(biāo)準(zhǔn)答案,而從不分析錯(cuò)誤答案為什么是錯(cuò)的。這種方法在處理復(fù)雜的手機(jī)操作任務(wù)時(shí)顯得力不從心。
騰訊混元團(tuán)隊(duì)意識(shí)到,在手機(jī)操作這樣的復(fù)雜任務(wù)中,失敗的操作軌跡實(shí)際上包含著大量有價(jià)值的學(xué)習(xí)信息。比如,當(dāng)AI嘗試打開(kāi)設(shè)置菜單時(shí),它可能會(huì)先錯(cuò)誤地點(diǎn)擊了通知欄,然后才找到正確的設(shè)置圖標(biāo)。這個(gè)"先錯(cuò)后對(duì)"的過(guò)程中,錯(cuò)誤的那一步同樣包含著重要的學(xué)習(xí)價(jià)值,它告訴AI哪些操作是無(wú)效的,應(yīng)該避免。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI訓(xùn)練方法主要存在兩個(gè)致命缺陷。第一個(gè)問(wèn)題是效率低下的失敗學(xué)習(xí)機(jī)制。當(dāng)AI完成一個(gè)需要20多個(gè)步驟的復(fù)雜任務(wù)時(shí),如果最終失敗了,傳統(tǒng)方法會(huì)簡(jiǎn)單地將整個(gè)操作序列標(biāo)記為"失敗",而無(wú)法精確定位是第5步的錯(cuò)誤點(diǎn)擊還是第15步的錯(cuò)誤滑動(dòng)導(dǎo)致了最終失敗。這就像一個(gè)老師只會(huì)給學(xué)生的整張?jiān)嚲泶騻€(gè)"不及格",而不會(huì)指出具體哪道題做錯(cuò)了。
第二個(gè)問(wèn)題是模糊的責(zé)任分配機(jī)制。在長(zhǎng)序列的操作中,AI往往無(wú)法準(zhǔn)確判斷哪一個(gè)具體步驟導(dǎo)致了任務(wù)失敗。這種模糊性使得AI很難從失敗經(jīng)驗(yàn)中提取有用的改進(jìn)信息,就像一個(gè)廚師知道菜品最終不好吃,但不知道是調(diào)料放多了還是火候不對(duì)。
二、創(chuàng)新架構(gòu):兩階段自我進(jìn)化的學(xué)習(xí)系統(tǒng)
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練系統(tǒng),這個(gè)系統(tǒng)的工作原理就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)徒工一樣循序漸進(jìn)。
第一階段被稱(chēng)為"拒絕式微調(diào)",這個(gè)名字聽(tīng)起來(lái)有些嚴(yán)厲,但實(shí)際上是一個(gè)非常聰明的篩選機(jī)制。想象一下,你正在教一個(gè)學(xué)徒如何制作復(fù)雜的工藝品。在這個(gè)階段,你不會(huì)直接糾正他的每一個(gè)錯(cuò)誤動(dòng)作,而是讓他自由嘗試,然后只保留那些最終成功的作品作為學(xué)習(xí)樣本。這種方法讓AI能夠在大量的嘗試中自然地發(fā)現(xiàn)有效的操作模式。
具體來(lái)說(shuō),系統(tǒng)會(huì)讓AI模型針對(duì)同一個(gè)任務(wù)生成多個(gè)不同的操作方案,然后通過(guò)一個(gè)自動(dòng)驗(yàn)證器來(lái)判斷哪些方案能夠成功完成任務(wù)。只有那些被驗(yàn)證為成功的操作序列才會(huì)被保留下來(lái),作為下一輪訓(xùn)練的高質(zhì)量數(shù)據(jù)。這個(gè)過(guò)程會(huì)不斷重復(fù),每一輪都會(huì)產(chǎn)生更好的訓(xùn)練數(shù)據(jù),從而推動(dòng)模型能力的持續(xù)提升。
經(jīng)過(guò)三輪這樣的迭代訓(xùn)練,模型的成功率從最初的37%大幅提升到了73%,這個(gè)進(jìn)步幅度相當(dāng)可觀。但研究團(tuán)隊(duì)并沒(méi)有滿足于此,他們知道真正的突破還在后面。
第二階段是整個(gè)系統(tǒng)的核心創(chuàng)新,被稱(chēng)為"群組相對(duì)自蒸餾"。這個(gè)名字雖然聽(tīng)起來(lái)很技術(shù)化,但其背后的理念非常直觀。設(shè)想你正在教一群學(xué)生解決同一道數(shù)學(xué)題,有些學(xué)生找到了正確答案,有些學(xué)生做錯(cuò)了。傳統(tǒng)的做法是簡(jiǎn)單地告訴錯(cuò)誤的學(xué)生"你做錯(cuò)了",但更聰明的做法是找到他們與正確學(xué)生的解題路徑在哪一步開(kāi)始分叉,然后針對(duì)性地糾正那個(gè)關(guān)鍵分叉點(diǎn)。
這種方法的精妙之處在于"分叉點(diǎn)檢測(cè)"技術(shù)。系統(tǒng)會(huì)仔細(xì)比較成功和失敗的操作序列,尋找它們開(kāi)始出現(xiàn)差異的關(guān)鍵節(jié)點(diǎn)。比如,在一個(gè)"打開(kāi)文件管理器并找到特定文件"的任務(wù)中,成功的操作可能是向下滑動(dòng)打開(kāi)通知欄,而失敗的操作可能是向上滑動(dòng)嘗試打開(kāi)應(yīng)用抽屜。系統(tǒng)能夠精確識(shí)別出這個(gè)關(guān)鍵的分叉點(diǎn),然后將正確的操作方法教授給失敗的嘗試。
為了實(shí)現(xiàn)這種精確的分叉點(diǎn)檢測(cè),研究團(tuán)隊(duì)采用了一種叫做SSIM(結(jié)構(gòu)相似性指數(shù))的圖像比較技術(shù)。這種技術(shù)能夠準(zhǔn)確判斷兩個(gè)手機(jī)屏幕截圖是否顯示相同的界面狀態(tài),從而確定成功和失敗的操作序列在哪一點(diǎn)開(kāi)始出現(xiàn)分歧。這就像有一雙能夠精確識(shí)別細(xì)微差別的眼睛,能夠發(fā)現(xiàn)兩個(gè)看似相似的界面之間的關(guān)鍵區(qū)別。
三、關(guān)鍵技術(shù):精準(zhǔn)識(shí)別操作分叉點(diǎn)的智慧
分叉點(diǎn)檢測(cè)技術(shù)的工作原理可以用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。假設(shè)AI需要完成"錄制音頻并保存文件"這個(gè)任務(wù),它會(huì)同時(shí)嘗試多種不同的操作路徑。成功的路徑可能是:打開(kāi)錄音應(yīng)用→點(diǎn)擊錄制按鈕→錄制完成→點(diǎn)擊停止→選擇保存位置→確認(rèn)保存。而失敗的路徑可能是:打開(kāi)錄音應(yīng)用→點(diǎn)擊錄制按鈕→錄制完成→點(diǎn)擊停止→誤點(diǎn)擊刪除按鈕→任務(wù)失敗。
通過(guò)比較這兩個(gè)路徑的屏幕截圖序列,系統(tǒng)能夠精確定位到分叉點(diǎn)發(fā)生在"錄制完成點(diǎn)擊停止"之后的那一步。在這個(gè)關(guān)鍵節(jié)點(diǎn),成功路徑選擇了"保存"操作,而失敗路徑選擇了"刪除"操作。一旦識(shí)別出這個(gè)分叉點(diǎn),系統(tǒng)就能構(gòu)建出高質(zhì)量的糾錯(cuò)訓(xùn)練樣本:在相同的界面狀態(tài)下,應(yīng)該選擇"保存"而不是"刪除"。
這種分叉點(diǎn)檢測(cè)不僅能夠處理明顯的錯(cuò)誤操作,還能識(shí)別更加細(xì)微的差別。比如,在瀏覽器中導(dǎo)航時(shí),成功的操作可能是點(diǎn)擊"向下"按鈕移動(dòng)到正確位置,而失敗的操作可能是點(diǎn)擊"向右"按鈕撞到障礙物。雖然這兩個(gè)操作在某種意義上都是"導(dǎo)航操作",但它們的結(jié)果截然不同。系統(tǒng)能夠識(shí)別出這種細(xì)微但關(guān)鍵的差別,從而提供精準(zhǔn)的糾錯(cuò)指導(dǎo)。
更令人印象深刻的是,這種分叉點(diǎn)可能出現(xiàn)在操作序列的任何位置,甚至是第一步。研究團(tuán)隊(duì)展示了一個(gè)"關(guān)閉藍(lán)牙"任務(wù)的例子,其中成功和失敗的操作從第一步就開(kāi)始分化:成功路徑是向下滑動(dòng)打開(kāi)通知欄,然后點(diǎn)擊快速設(shè)置中的藍(lán)牙圖標(biāo);而失敗路徑則是向上滑動(dòng)嘗試打開(kāi)設(shè)置應(yīng)用。這種從一開(kāi)始就出現(xiàn)的分叉點(diǎn)同樣能夠被系統(tǒng)準(zhǔn)確捕捉和利用。
四、突破性成果:超越人類(lèi)表現(xiàn)的AI操作員
在AndroidWorld這個(gè)包含116個(gè)不同復(fù)雜任務(wù)的測(cè)試平臺(tái)上,UI-Voyager展現(xiàn)出了令人矚目的性能。這個(gè)測(cè)試平臺(tái)就像一個(gè)全面的"手機(jī)操作技能考試",涵蓋了從簡(jiǎn)單的應(yīng)用啟動(dòng)到復(fù)雜的文件管理、系統(tǒng)設(shè)置調(diào)整等各種真實(shí)場(chǎng)景。
最終的測(cè)試結(jié)果讓整個(gè)研究團(tuán)隊(duì)都感到驚喜。僅有4B參數(shù)的UI-Voyager模型達(dá)到了81.0%的成功率,這個(gè)成績(jī)不僅超過(guò)了所有其他AI模型,包括那些參數(shù)量達(dá)到235B的超大型模型,更重要的是,它還超過(guò)了人類(lèi)操作員80.0%的基準(zhǔn)表現(xiàn)。
這個(gè)成果的意義不僅在于數(shù)字上的突破,更在于它證明了"從失敗中學(xué)習(xí)"這一理念的有效性。相比之下,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法如GRPO和PPO在同樣的任務(wù)上只能達(dá)到76%左右的成功率,而且需要大量的訓(xùn)練時(shí)間才能達(dá)到這個(gè)水平。
研究團(tuán)隊(duì)還發(fā)現(xiàn),群組相對(duì)自蒸餾方法在那些最困難的任務(wù)上表現(xiàn)尤為出色。在一些成功率極低的復(fù)雜任務(wù)中,比如創(chuàng)建特定的播放列表、管理復(fù)雜的文件結(jié)構(gòu)等,這種方法能夠?qū)⒊晒β蕪慕咏闾嵘较喈?dāng)可觀的水平。這表明該方法特別適合處理那些需要精確操作序列的復(fù)雜任務(wù)。
更令人鼓舞的是,這種學(xué)習(xí)能力還體現(xiàn)在模型的適應(yīng)性上。當(dāng)面對(duì)新的、在訓(xùn)練中從未見(jiàn)過(guò)的任務(wù)時(shí),UI-Voyager表現(xiàn)出了良好的泛化能力。這種泛化能力來(lái)源于它對(duì)操作失敗模式的深入理解,使其能夠在新情境中避免類(lèi)似的錯(cuò)誤。
五、實(shí)際應(yīng)用:改變我們與手機(jī)交互的方式
UI-Voyager的成功不僅是技術(shù)上的突破,更預(yù)示著我們與智能設(shè)備交互方式的根本性改變。在不久的將來(lái),我們可能不再需要記憶復(fù)雜的操作步驟或在各種菜單中迷失方向。
考慮一個(gè)典型的使用場(chǎng)景:你想要在手機(jī)上完成一系列相關(guān)的任務(wù),比如整理照片、創(chuàng)建相冊(cè)、分享給朋友,然后設(shè)置自動(dòng)備份。傳統(tǒng)上,這需要你在多個(gè)應(yīng)用之間切換,記住各種操作步驟,還要處理可能出現(xiàn)的各種異常情況。有了UI-Voyager這樣的AI助手,你只需要描述你的目標(biāo),它就能自動(dòng)完成這整個(gè)復(fù)雜的操作流程。
更重要的是,這種AI助手具備了自我改進(jìn)的能力。當(dāng)它在某個(gè)特定的手機(jī)型號(hào)或應(yīng)用版本上遇到新的界面布局時(shí),它能夠快速適應(yīng)并學(xué)習(xí)新的操作方法。這種適應(yīng)性對(duì)于處理不斷更新的移動(dòng)應(yīng)用生態(tài)系統(tǒng)來(lái)說(shuō)至關(guān)重要。
從技術(shù)發(fā)展的角度來(lái)看,UI-Voyager代表了AI從"執(zhí)行指令"向"理解意圖"轉(zhuǎn)變的重要一步。它不僅能夠執(zhí)行具體的操作命令,更能夠理解用戶的高層次目標(biāo),并找到實(shí)現(xiàn)這些目標(biāo)的最佳路徑。即使在遇到意外情況或界面變化時(shí),它也能夠靈活調(diào)整策略,找到替代的解決方案。
這種能力的應(yīng)用前景非常廣闊。除了個(gè)人手機(jī)使用,它還可以被集成到企業(yè)應(yīng)用中,幫助自動(dòng)化復(fù)雜的業(yè)務(wù)流程。比如,在客服系統(tǒng)中,AI可以自動(dòng)處理復(fù)雜的查詢(xún)和操作請(qǐng)求;在測(cè)試環(huán)節(jié),它可以自動(dòng)執(zhí)行復(fù)雜的用戶界面測(cè)試;在無(wú)障礙技術(shù)領(lǐng)域,它可以為行動(dòng)不便的用戶提供更加智能的操作輔助。
六、技術(shù)挑戰(zhàn)與解決方案:完善細(xì)節(jié)的工程智慧
盡管取得了顯著成功,研究團(tuán)隊(duì)也誠(chéng)實(shí)地分享了開(kāi)發(fā)過(guò)程中遇到的技術(shù)挑戰(zhàn)和相應(yīng)的解決方案。這些挑戰(zhàn)的解決過(guò)程展現(xiàn)了團(tuán)隊(duì)在工程實(shí)現(xiàn)方面的深度思考。
首先是實(shí)時(shí)執(zhí)行環(huán)境帶來(lái)的復(fù)雜性。與實(shí)驗(yàn)室中的靜態(tài)測(cè)試環(huán)境不同,真實(shí)的手機(jī)操作環(huán)境是動(dòng)態(tài)變化的。屏幕可能在動(dòng)畫(huà)過(guò)程中被截圖,應(yīng)用可能正在加載,系統(tǒng)通知可能隨時(shí)彈出。這些動(dòng)態(tài)因素都會(huì)影響分叉點(diǎn)檢測(cè)的準(zhǔn)確性。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一套時(shí)間感知的匹配算法。這套算法不是簡(jiǎn)單地比較單張截圖,而是在短時(shí)間窗口內(nèi)尋找最佳匹配,同時(shí)考慮了界面元素的動(dòng)態(tài)變化。比如,當(dāng)一個(gè)按鈕在加載過(guò)程中顯示不同的狀態(tài)時(shí),算法能夠識(shí)別出這些狀態(tài)實(shí)際上代表相同的邏輯界面。
另一個(gè)挑戰(zhàn)是如何處理手機(jī)操作中的異步性和不確定性。不同的手機(jī)設(shè)備有不同的響應(yīng)速度,相同的操作在不同時(shí)刻可能產(chǎn)生微妙的時(shí)序差異。研究團(tuán)隊(duì)通過(guò)引入時(shí)序平滑機(jī)制和多候選匹配策略來(lái)應(yīng)對(duì)這種不確定性,確保系統(tǒng)能夠在各種設(shè)備條件下穩(wěn)定工作。
在操作空間的設(shè)計(jì)上,團(tuán)隊(duì)選擇了相對(duì)高層的操作原語(yǔ),如點(diǎn)擊、滑動(dòng)、輸入文本等,而不是底層的像素級(jí)操作。這種選擇既簡(jiǎn)化了學(xué)習(xí)難度,又保持了足夠的表達(dá)能力。但同時(shí),這也意味著系統(tǒng)無(wú)法處理一些需要精確手勢(shì)的高級(jí)操作。研究團(tuán)隊(duì)認(rèn)為,這種權(quán)衡在當(dāng)前階段是合理的,未來(lái)可以通過(guò)分層操作建模來(lái)擴(kuò)展到更復(fù)雜的操作類(lèi)型。
七、深度分析:為什么這種方法如此有效
UI-Voyager成功的關(guān)鍵在于它對(duì)失敗信息的充分利用。傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往將失敗樣本簡(jiǎn)單地丟棄或標(biāo)記為負(fù)樣本,但這種做法忽略了失敗樣本中蘊(yùn)含的豐富信息。
從信息論的角度來(lái)看,一個(gè)失敗的操作序列實(shí)際上包含了大量有價(jià)值的信息。它告訴我們?cè)谔囟ǖ臓顟B(tài)下,某些操作是無(wú)效的,應(yīng)該避免。更重要的是,通過(guò)與成功序列的對(duì)比,我們可以精確定位導(dǎo)致失敗的關(guān)鍵決策點(diǎn)。這種精確定位是傳統(tǒng)方法難以實(shí)現(xiàn)的。
群組相對(duì)自蒸餾方法的另一個(gè)優(yōu)勢(shì)是它的數(shù)據(jù)效率。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法需要大量的試錯(cuò)來(lái)學(xué)習(xí)有效策略,而這種方法能夠從相對(duì)較少的成功樣本中提取最大的學(xué)習(xí)價(jià)值。通過(guò)精確的分叉點(diǎn)識(shí)別,每個(gè)成功樣本都能夠糾正多個(gè)失敗樣本,大大提高了學(xué)習(xí)效率。
此外,這種方法還具有很好的可解釋性。當(dāng)系統(tǒng)做出某個(gè)操作決策時(shí),我們可以追溯到具體的分叉點(diǎn)和糾錯(cuò)樣本,理解這個(gè)決策的來(lái)源。這種可解釋性對(duì)于構(gòu)建可信賴(lài)的AI系統(tǒng)來(lái)說(shuō)非常重要。
從認(rèn)知科學(xué)的角度來(lái)看,UI-Voyager的學(xué)習(xí)機(jī)制與人類(lèi)的學(xué)習(xí)過(guò)程有相似之處。人類(lèi)在學(xué)習(xí)復(fù)雜技能時(shí),往往會(huì)通過(guò)對(duì)比成功和失敗的經(jīng)驗(yàn)來(lái)改進(jìn)自己的策略。專(zhuān)家和新手的一個(gè)重要區(qū)別就在于專(zhuān)家能夠更精確地識(shí)別關(guān)鍵的決策點(diǎn),避免重復(fù)犯錯(cuò)。UI-Voyager的分叉點(diǎn)檢測(cè)機(jī)制在某種程度上模擬了這種專(zhuān)家級(jí)的錯(cuò)誤分析能力。
說(shuō)到底,UI-Voyager的成功展示了一個(gè)重要的研究理念:在AI系統(tǒng)的設(shè)計(jì)中,我們不應(yīng)該簡(jiǎn)單地模仿現(xiàn)有的方法,而應(yīng)該深入思考問(wèn)題的本質(zhì),尋找更加符合任務(wù)特性的解決方案。手機(jī)操作任務(wù)的復(fù)雜性和動(dòng)態(tài)性要求AI系統(tǒng)具備強(qiáng)大的錯(cuò)誤恢復(fù)和自我糾正能力,而傳統(tǒng)的監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)方法在這方面都有其局限性。
騰訊混元團(tuán)隊(duì)的這項(xiàng)工作不僅在技術(shù)上取得了突破,更重要的是為AI研究提供了一種新的思路:如何更好地利用失敗信息來(lái)加速學(xué)習(xí)過(guò)程。這種思路有望在更多的AI應(yīng)用領(lǐng)域發(fā)揮作用,推動(dòng)整個(gè)行業(yè)向更加智能和高效的方向發(fā)展。雖然目前UI-Voyager主要應(yīng)用于AndroidWorld測(cè)試環(huán)境,但其核心理念和技術(shù)架構(gòu)為構(gòu)建更加智能的人機(jī)交互系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。隨著技術(shù)的進(jìn)一步完善和優(yōu)化,我們有理由期待在不久的將來(lái)看到更多基于這種"從失敗中學(xué)習(xí)"理念的AI產(chǎn)品進(jìn)入我們的日常生活,讓我們與智能設(shè)備的交互變得更加自然和高效。
Q&A
Q1:UI-Voyager是什么?
A:UI-Voyager是騰訊混元團(tuán)隊(duì)開(kāi)發(fā)的手機(jī)AI操作助手,它能自動(dòng)完成復(fù)雜的手機(jī)操作任務(wù),比如打開(kāi)應(yīng)用、調(diào)整設(shè)置、管理文件等。它的特別之處在于能從操作失敗中學(xué)習(xí)改進(jìn),就像一個(gè)會(huì)從錯(cuò)誤中吸取經(jīng)驗(yàn)的智能學(xué)徒。
Q2:UI-Voyager比人類(lèi)操作手機(jī)還厲害嗎?
A:是的,在AndroidWorld的116個(gè)測(cè)試任務(wù)中,UI-Voyager達(dá)到了81.0%的成功率,超過(guò)了人類(lèi)操作員80.0%的表現(xiàn)。更令人印象深刻的是,它只用了4B個(gè)參數(shù)就超越了許多參數(shù)量達(dá)到235B的大型AI模型。
Q3:普通人能使用UI-Voyager嗎?
A:目前UI-Voyager還處在研究階段,主要在AndroidWorld測(cè)試平臺(tái)上驗(yàn)證技術(shù)效果。但這項(xiàng)技術(shù)的成功為開(kāi)發(fā)實(shí)用的手機(jī)AI助手奠定了基礎(chǔ),未來(lái)很可能會(huì)被集成到實(shí)際的手機(jī)系統(tǒng)或應(yīng)用中,幫助用戶自動(dòng)完成復(fù)雜操作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.