![]()
當(dāng)你寫完一段代碼,準(zhǔn)備提交到項(xiàng)目中時(shí),通常會(huì)有同事幫你檢查一遍——這個(gè)過程叫做代碼審查,就像文章發(fā)表前的編輯校對(duì)一樣重要。不過現(xiàn)在情況有了變化:越來(lái)越多的AI機(jī)器人也開始參與代碼審查工作,它們能自動(dòng)發(fā)現(xiàn)bug、提出改進(jìn)建議,甚至與人類開發(fā)者展開討論。這引發(fā)了一個(gè)有趣的問題:AI審查員和人類審查員到底誰(shuí)更厲害?它們的合作效果如何?
加拿大皇后大學(xué)的研究團(tuán)隊(duì)最近完成了一項(xiàng)大規(guī)模研究,分析了278,790次代碼審查對(duì)話,涵蓋300個(gè)開源GitHub項(xiàng)目,時(shí)間跨度從2022年到2025年。這項(xiàng)研究發(fā)表于2026年3月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2603.15911v1。研究團(tuán)隊(duì)深入探討了AI機(jī)器人審查員與人類審查員在反饋質(zhì)量、互動(dòng)模式和建議采納率方面的差異,為我們揭示了人機(jī)協(xié)作審查的真實(shí)面貌。
研究發(fā)現(xiàn),AI機(jī)器人的表現(xiàn)確實(shí)令人印象深刻,但也暴露出明顯的局限性。AI機(jī)器人生成的評(píng)論比人類長(zhǎng)得多,平均每行代碼產(chǎn)生29.6個(gè)詞匯,而人類只需要4.1個(gè)詞匯。更有趣的是,AI機(jī)器人幾乎完全專注于代碼改進(jìn)和錯(cuò)誤檢測(cè),超過95%的評(píng)論都集中在這兩個(gè)方面。相比之下,人類審查員的反饋更加多樣化,不僅關(guān)注技術(shù)問題,還會(huì)進(jìn)行理解確認(rèn)、知識(shí)傳授和測(cè)試建議。
在實(shí)際應(yīng)用效果方面,研究揭示了一個(gè)令人意外的現(xiàn)象:雖然AI機(jī)器人提出的代碼建議數(shù)量是人類的三倍多(88,011個(gè)對(duì)比25,673個(gè)),但它們的建議被采納率卻顯著偏低,只有16.6%,而人類審查員的建議采納率高達(dá)56.5%。更值得注意的是,當(dāng)AI機(jī)器人的建議被采納后,往往會(huì)增加代碼的復(fù)雜性和體積,這與良好的編程實(shí)踐相矛盾。
一、AI機(jī)器人審查員:話多但精準(zhǔn)度有限的助手
當(dāng)我們把AI機(jī)器人比作一位勤奮但經(jīng)驗(yàn)不足的新員工時(shí),就能更好地理解它們的工作特點(diǎn)。這位"新員工"非常努力,總是寫很長(zhǎng)很詳細(xì)的報(bào)告,但往往抓不住重點(diǎn),有時(shí)還會(huì)犯一些基礎(chǔ)錯(cuò)誤。
研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),AI機(jī)器人審查員有著鮮明的工作風(fēng)格特征。它們就像那種做事特別認(rèn)真、報(bào)告寫得特別詳細(xì)的同事,每次都要把所有細(xì)節(jié)說(shuō)得清清楚楚。當(dāng)人類審查員只需要簡(jiǎn)單指出"這里有個(gè)小問題"時(shí),AI機(jī)器人會(huì)寫一大段話,不僅指出問題,還要解釋原因、引用相關(guān)規(guī)則、列出需要修改的文件清單,甚至給出嚴(yán)重性等級(jí)。
這種差異就像兩種不同的溝通方式:人類審查員更像經(jīng)驗(yàn)豐富的老師,能夠一針見血地指出核心問題;而AI機(jī)器人更像剛?cè)肼毜膶?shí)習(xí)生,什么都想說(shuō),生怕遺漏重要信息。雖然詳細(xì)程度高,但這種冗長(zhǎng)的表達(dá)方式往往會(huì)增加閱讀負(fù)擔(dān),讓開發(fā)者需要花更多時(shí)間理解建議的核心內(nèi)容。
更重要的是,AI機(jī)器人的關(guān)注點(diǎn)相當(dāng)有限。研究顯示,它們幾乎把所有注意力都集中在兩個(gè)方面:發(fā)現(xiàn)代碼錯(cuò)誤和提出改進(jìn)建議。這就像一個(gè)只會(huì)查語(yǔ)法錯(cuò)誤和標(biāo)點(diǎn)符號(hào)的校對(duì)軟件,雖然在這些方面很專業(yè),但完全不會(huì)考慮文章的邏輯結(jié)構(gòu)、讀者感受或者寫作目的。
相比之下,人類審查員的反饋就豐富多了。除了技術(shù)問題,他們還會(huì)問"你為什么要這樣實(shí)現(xiàn)?"、"這個(gè)設(shè)計(jì)考慮了哪些場(chǎng)景?"或者"我建議你看看項(xiàng)目中的其他類似實(shí)現(xiàn)"。這些問題反映了人類審查員不僅關(guān)注代碼本身,還關(guān)注背后的設(shè)計(jì)思路、團(tuán)隊(duì)知識(shí)共享和項(xiàng)目一致性。
研究還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:當(dāng)涉及理解和澄清的討論時(shí),人類主導(dǎo)的對(duì)話往往會(huì)產(chǎn)生更多輪次的交流。平均來(lái)說(shuō),理解類反饋會(huì)引發(fā)2.1到2.3輪討論,而AI機(jī)器人的反饋基本上都是"一次性消費(fèi)",很少引發(fā)深入對(duì)話。這就像AI機(jī)器人更適合做標(biāo)準(zhǔn)化檢查工作,而人類更擅長(zhǎng)進(jìn)行深度交流和知識(shí)傳遞。
二、人機(jī)對(duì)話模式:誰(shuí)說(shuō)話、何時(shí)說(shuō)、如何結(jié)束
代碼審查中的人機(jī)互動(dòng)就像一場(chǎng)精心編排的對(duì)話劇,每個(gè)角色都有自己的臺(tái)詞和出場(chǎng)時(shí)機(jī)。研究團(tuán)隊(duì)通過分析這些對(duì)話模式,發(fā)現(xiàn)了一些令人意外的規(guī)律。
當(dāng)人類審查員遇到AI生成的代碼時(shí),對(duì)話變得格外"活躍"。數(shù)據(jù)顯示,人類審查員在審查AI生成代碼時(shí)的交流輪次比審查人類代碼時(shí)多出11.8%。這種現(xiàn)象很好理解:當(dāng)你讀到一段看起來(lái)正確但又感覺哪里不對(duì)的代碼時(shí),自然會(huì)產(chǎn)生更多疑問。人類審查員經(jīng)常需要多問幾句"你為什么要這樣寫?"、"這個(gè)邏輯的依據(jù)是什么?"來(lái)確保自己真正理解了AI的想法。
這種情況就像你在閱讀一本翻譯小說(shuō),雖然語(yǔ)法和用詞都沒問題,但總感覺表達(dá)方式有些別扭,于是不得不反復(fù)琢磨作者的真實(shí)意圖。AI生成的代碼也會(huì)給人類審查員帶來(lái)類似的困惑,需要更多輪的確認(rèn)和澄清。
然而,當(dāng)AI機(jī)器人扮演審查員角色時(shí),對(duì)話模式就完全不同了。研究發(fā)現(xiàn),85%到87%的AI發(fā)起的審查對(duì)話都在第一輪就結(jié)束了,沒有任何后續(xù)交流。這就像AI機(jī)器人說(shuō)完自己要說(shuō)的話后就沉默了,不管別人是否理解、同意或者有其他想法。
這種行為模式反映了AI機(jī)器人在互動(dòng)交流方面的重大局限。真正的代碼審查往往不是一錘子買賣,而是一個(gè)持續(xù)的協(xié)商過程。審查員提出建議后,代碼作者可能會(huì)解釋自己的想法,審查員再根據(jù)新信息調(diào)整建議,雙方經(jīng)過幾輪交流最終達(dá)成共識(shí)。但AI機(jī)器人目前還不具備這種動(dòng)態(tài)調(diào)整和深度互動(dòng)的能力。
更值得注意的是,研究發(fā)現(xiàn)了一個(gè)關(guān)于對(duì)話結(jié)局的重要模式:當(dāng)對(duì)話以AI機(jī)器人的回復(fù)作為結(jié)尾時(shí),代碼被拒絕的概率顯著提高(7.1%到25.8%),而以人類回復(fù)結(jié)尾的對(duì)話被拒絕率要低得多(0.9%到7.8%)。這個(gè)現(xiàn)象揭示了人類在最終決策中的關(guān)鍵作用。
可以把這種情況比作團(tuán)隊(duì)開會(huì)討論項(xiàng)目方案:AI機(jī)器人善于提出技術(shù)性建議和發(fā)現(xiàn)問題,但人類更擅長(zhǎng)綜合考慮各種因素、權(quán)衡利弊并做出最終決定。當(dāng)一場(chǎng)討論以人類的總結(jié)和確認(rèn)結(jié)束時(shí),通常意味著各方已經(jīng)達(dá)成共識(shí);而如果討論在AI機(jī)器人發(fā)言后就戛然而止,往往說(shuō)明還有未解決的分歧或疑慮。
這種對(duì)話模式的分析為我們提供了重要啟示:在設(shè)計(jì)人機(jī)協(xié)作的代碼審查系統(tǒng)時(shí),不應(yīng)該讓AI機(jī)器人完全替代人類,而應(yīng)該讓它們發(fā)揮各自的優(yōu)勢(shì),AI負(fù)責(zé)初步篩查和標(biāo)準(zhǔn)化檢查,人類負(fù)責(zé)深度討論和最終決策。
三、建議質(zhì)量大比拼:數(shù)量多不等于質(zhì)量高
在代碼審查中提出改進(jìn)建議就像給菜譜提意見:有的建議一針見血,讓整道菜立刻變得更美味;有的建議聽起來(lái)有道理,但實(shí)施起來(lái)要么行不通,要么讓菜變得更復(fù)雜。研究團(tuán)隊(duì)對(duì)AI機(jī)器人和人類審查員提出的代碼建議進(jìn)行了詳細(xì)對(duì)比,結(jié)果發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象。
從數(shù)量上看,AI機(jī)器人確實(shí)是"建議制造機(jī)",它們總共提出了88,011個(gè)代碼修改建議,是人類審查員25,673個(gè)建議的三倍多。但正如俗話說(shuō)的"貴精不貴多",建議的質(zhì)量比數(shù)量更重要。事實(shí)證明,AI機(jī)器人的建議雖然多,但被實(shí)際采納的比例卻令人失望。
具體來(lái)看,人類審查員的建議有56.5%被采納并最終合并到代碼庫(kù)中,而AI機(jī)器人的采納率只有16.6%。這種巨大差距就像兩個(gè)購(gòu)物顧問的表現(xiàn)對(duì)比:一個(gè)經(jīng)驗(yàn)豐富的顧問推薦的商品你會(huì)經(jīng)常購(gòu)買,而另一個(gè)新手顧問雖然推薦了很多商品,但你真正買的寥寥無(wú)幾。
為什么會(huì)出現(xiàn)這種差距?研究團(tuán)隊(duì)深入分析了那些未被采納的AI建議,發(fā)現(xiàn)了幾個(gè)主要原因。最常見的問題是AI機(jī)器人的建議本身就是錯(cuò)誤的,占未采納建議的28.7%。比如,AI機(jī)器人可能會(huì)指出某個(gè)命名空間缺失會(huì)導(dǎo)致編譯失敗,但實(shí)際上這個(gè)命名空間在項(xiàng)目的其他地方已經(jīng)正確引入了,代碼能夠正常編譯。這就像一個(gè)不熟悉廚房布局的人告訴廚師"鹽找不到了",但實(shí)際上鹽就在廚師觸手可及的地方。
第二大問題是"方案不匹配",占24.0%。在這種情況下,AI機(jī)器人確實(shí)發(fā)現(xiàn)了真實(shí)存在的問題,但提出的解決方案與開發(fā)者的實(shí)際想法不符。這就像AI機(jī)器人發(fā)現(xiàn)了菜品味道偏淡的問題(分析正確),但建議加糖(方案不合適),而廚師實(shí)際想加的是鹽。
除此之外,還有16.4%的建議被認(rèn)為是"不必要的"——AI機(jī)器人提出的修改在技術(shù)上可行,但開發(fā)者認(rèn)為當(dāng)前的實(shí)現(xiàn)已經(jīng)足夠好,不需要改變。另有11.2%的情況是開發(fā)者聲稱已經(jīng)修復(fù)了問題,但實(shí)際上并沒有在代碼庫(kù)中看到相應(yīng)的更改。
這些問題的根本原因在于AI機(jī)器人缺乏項(xiàng)目上下文的理解能力。它們就像一個(gè)從教科書學(xué)會(huì)做菜的廚師,知道很多通用規(guī)則和技巧,但不了解這家餐廳的特色、食客的偏好,以及現(xiàn)有菜譜的設(shè)計(jì)理念。
相比之下,人類審查員的建議質(zhì)量為什么更高?研究發(fā)現(xiàn),人類在提出建議時(shí)會(huì)綜合考慮多個(gè)因素:項(xiàng)目的整體架構(gòu)、團(tuán)隊(duì)的編碼風(fēng)格、已有的設(shè)計(jì)決策,以及實(shí)際的業(yè)務(wù)需求。他們不僅關(guān)注代碼的技術(shù)正確性,還會(huì)考慮可維護(hù)性、可讀性和與現(xiàn)有系統(tǒng)的一致性。
更重要的是,當(dāng)AI機(jī)器人的建議被采納后,代碼的復(fù)雜度往往會(huì)顯著增加。研究數(shù)據(jù)顯示,采納AI建議后,代碼復(fù)雜度的增長(zhǎng)幅度比采納人類建議時(shí)高出0.085到0.106個(gè)單位,代碼行數(shù)的增長(zhǎng)也更明顯。這就像AI機(jī)器人總是傾向于提供更"安全"但也更復(fù)雜的解決方案,而人類更善于找到簡(jiǎn)潔優(yōu)雅的解決辦法。
不過,這并不意味著AI機(jī)器人的建議毫無(wú)價(jià)值。在某些特定領(lǐng)域,比如發(fā)現(xiàn)明顯的編碼錯(cuò)誤或提醒遵循標(biāo)準(zhǔn)編碼規(guī)范,AI機(jī)器人的表現(xiàn)還是相當(dāng)不錯(cuò)的。問題在于如何更好地利用AI的優(yōu)勢(shì),同時(shí)彌補(bǔ)它的不足。
四、人機(jī)協(xié)作的藝術(shù):各展所長(zhǎng)還是互相制肘
代碼審查中的人機(jī)協(xié)作就像一支交響樂隊(duì)的演出:每個(gè)樂手都有自己的專長(zhǎng),關(guān)鍵是如何協(xié)調(diào)配合,讓整體效果達(dá)到最佳。研究團(tuán)隊(duì)通過分析大量的協(xié)作案例,發(fā)現(xiàn)了一些有趣的協(xié)作模式和潛在的改進(jìn)方向。
在最理想的情況下,AI機(jī)器人和人類審查員能夠形成互補(bǔ)關(guān)系。AI機(jī)器人擅長(zhǎng)做那些標(biāo)準(zhǔn)化、重復(fù)性的檢查工作,比如發(fā)現(xiàn)語(yǔ)法錯(cuò)誤、檢查代碼格式、識(shí)別常見的安全漏洞等。這些工作對(duì)人類來(lái)說(shuō)往往比較枯燥,而且容易因?yàn)樽⒁饬Ψ稚⒍z漏。相當(dāng)于讓AI機(jī)器人擔(dān)任"質(zhì)檢員"的角色,負(fù)責(zé)基礎(chǔ)的質(zhì)量把關(guān)。
與此同時(shí),人類審查員則專注于需要?jiǎng)?chuàng)造性思維和深度理解的工作:評(píng)估設(shè)計(jì)方案的合理性、判斷代碼是否符合業(yè)務(wù)需求、進(jìn)行知識(shí)傳授和團(tuán)隊(duì)溝通等。這些工作需要豐富的經(jīng)驗(yàn)、對(duì)項(xiàng)目背景的深度理解,以及良好的溝通技巧,是AI機(jī)器人目前還無(wú)法勝任的。
然而,現(xiàn)實(shí)中的協(xié)作并非總是如此和諧。研究發(fā)現(xiàn)了一些值得關(guān)注的問題。比如,當(dāng)AI機(jī)器人參與審查時(shí),人類審查員往往需要花更多時(shí)間來(lái)理解和驗(yàn)證AI的建議,這在一定程度上增加了工作負(fù)擔(dān)。就像團(tuán)隊(duì)中新加入了一個(gè)熱情但經(jīng)驗(yàn)不足的成員,老員工需要花額外的時(shí)間來(lái)指導(dǎo)和檢查新成員的工作。
另一個(gè)問題是AI機(jī)器人的"固執(zhí)"特性。當(dāng)人類審查員對(duì)AI的建議提出質(zhì)疑或不同意見時(shí),AI機(jī)器人往往無(wú)法進(jìn)行有效的回應(yīng)和調(diào)整。這就像一個(gè)只會(huì)按照說(shuō)明書操作的助手,當(dāng)遇到說(shuō)明書上沒有的情況時(shí),就不知道該怎么辦了。
研究還發(fā)現(xiàn),不同類型的代碼審查任務(wù)適合不同的協(xié)作模式。對(duì)于新項(xiàng)目或者實(shí)驗(yàn)性代碼,人類主導(dǎo)的審查模式效果更好,因?yàn)檫@類代碼往往需要更多的創(chuàng)新思考和靈活判斷。而對(duì)于成熟項(xiàng)目中的常規(guī)維護(hù)工作,AI機(jī)器人能夠發(fā)揮更大的作用,幫助快速識(shí)別明顯的問題。
最有趣的發(fā)現(xiàn)是關(guān)于"審查接力"的現(xiàn)象。在一些復(fù)雜的代碼審查中,AI機(jī)器人首先進(jìn)行初步掃描,標(biāo)記出可能的問題點(diǎn),然后人類審查員基于這些信息進(jìn)行深入分析和最終決策。這種模式既利用了AI的效率優(yōu)勢(shì),又保證了人類判斷的質(zhì)量。
不過,這種協(xié)作模式也存在一些挑戰(zhàn)。比如,如何確保AI機(jī)器人提供的信息是準(zhǔn)確的?如何避免人類過度依賴AI的判斷?如何在效率和質(zhì)量之間找到平衡?這些都是需要在實(shí)踐中不斷探索和優(yōu)化的問題。
研究團(tuán)隊(duì)發(fā)現(xiàn),最成功的協(xié)作案例往往有幾個(gè)共同特點(diǎn):首先,明確分工,讓AI和人類各自承擔(dān)適合自己的任務(wù);其次,建立有效的信息傳遞機(jī)制,確保AI的發(fā)現(xiàn)能夠準(zhǔn)確傳達(dá)給人類審查員;最后,保持人類的最終決策權(quán),確保重要決定都經(jīng)過人類的審慎考慮。
五、背后的深層含義:技術(shù)進(jìn)步與人文關(guān)懷的平衡
這項(xiàng)研究揭示的問題遠(yuǎn)比表面上的技術(shù)對(duì)比更加深刻。在AI技術(shù)快速發(fā)展的今天,我們正面臨著一個(gè)根本性的選擇:是讓機(jī)器完全取代人類的判斷,還是找到人機(jī)協(xié)作的最佳平衡點(diǎn)?
從表面上看,AI機(jī)器人在代碼審查中的表現(xiàn)似乎不如人類,但這個(gè)結(jié)論需要更加細(xì)致的分析。AI機(jī)器人的價(jià)值不僅在于它能做什么,更在于它能為人類節(jié)省多少時(shí)間和精力。即使AI的建議采納率不高,但它能夠幫助人類快速篩選和識(shí)別潛在問題,這本身就是一種價(jià)值。
比如,AI機(jī)器人提出的88,011個(gè)建議中,雖然只有16.6%被采納,但這意味著有14,600多個(gè)有價(jià)值的改進(jìn)被實(shí)現(xiàn)了。如果沒有AI的幫助,人類審查員可能根本沒有時(shí)間和精力發(fā)現(xiàn)這么多問題。從這個(gè)角度看,AI機(jī)器人更像是一個(gè)"放大鏡",幫助人類看到原本可能忽略的細(xì)節(jié)。
研究還反映了一個(gè)重要的社會(huì)學(xué)現(xiàn)象:技術(shù)的采用不僅僅是一個(gè)技術(shù)問題,更是一個(gè)社會(huì)適應(yīng)問題。人類對(duì)AI建議的低采納率,部分原因可能是對(duì)新技術(shù)的天然警惕和不信任。隨著AI技術(shù)的不斷改進(jìn)和人們經(jīng)驗(yàn)的積累,這種情況可能會(huì)發(fā)生改變。
同時(shí),研究也提醒我們注意AI技術(shù)的局限性。AI機(jī)器人缺乏對(duì)項(xiàng)目背景和團(tuán)隊(duì)文化的理解,這不是一個(gè)純粹的技術(shù)問題,而是涉及到知識(shí)的傳承、經(jīng)驗(yàn)的積累和人際關(guān)系的建立。這些"軟技能"目前仍然是人類的獨(dú)特優(yōu)勢(shì)。
從長(zhǎng)遠(yuǎn)來(lái)看,這項(xiàng)研究為AI技術(shù)的發(fā)展指明了方向。未來(lái)的AI系統(tǒng)需要更好地理解項(xiàng)目上下文,學(xué)會(huì)與人類進(jìn)行有效的雙向溝通,并且能夠根據(jù)反饋動(dòng)態(tài)調(diào)整自己的行為。這不僅需要技術(shù)上的突破,也需要在系統(tǒng)設(shè)計(jì)時(shí)更多地考慮人性化因素。
另一個(gè)值得思考的問題是評(píng)價(jià)標(biāo)準(zhǔn)。我們是否應(yīng)該簡(jiǎn)單地用采納率來(lái)衡量AI建議的價(jià)值?也許AI提出的那些未被采納的建議中,有一些雖然當(dāng)時(shí)被拒絕,但為開發(fā)者提供了新的思考角度,或者在后續(xù)的開發(fā)中被證明是有價(jià)值的。這種隱性價(jià)值很難量化,但同樣重要。
最后,這項(xiàng)研究也讓我們思考工作的未來(lái)形態(tài)。代碼審查只是軟件開發(fā)過程中的一個(gè)環(huán)節(jié),但它反映的問題具有普遍性:在AI技術(shù)快速發(fā)展的時(shí)代,如何重新定義人類的角色和價(jià)值?如何設(shè)計(jì)出真正有利于人類發(fā)展的人機(jī)協(xié)作模式?這些問題的答案將影響到每一個(gè)人的職業(yè)生涯和生活方式。
說(shuō)到底,這項(xiàng)研究告訴我們的不僅僅是AI和人類在代碼審查中的表現(xiàn)差異,更是關(guān)于人機(jī)協(xié)作的深層思考。AI機(jī)器人雖然在某些方面表現(xiàn)出色,但人類的創(chuàng)造力、判斷力和溝通能力仍然無(wú)可替代。最理想的未來(lái)可能不是AI取代人類,而是AI和人類各司其職,共同創(chuàng)造出比單獨(dú)工作更優(yōu)秀的結(jié)果。這種協(xié)作關(guān)系的建立需要技術(shù)進(jìn)步,更需要我們重新思考工作的意義和人類的價(jià)值。
對(duì)于每一個(gè)在技術(shù)行業(yè)工作的人來(lái)說(shuō),這項(xiàng)研究提供了寶貴的參考。它提醒我們既要擁抱新技術(shù)帶來(lái)的便利,也要保持對(duì)人類獨(dú)特價(jià)值的信心。在AI機(jī)器人越來(lái)越智能的今天,人類最重要的能力可能不是與機(jī)器競(jìng)爭(zhēng),而是學(xué)會(huì)如何更好地與機(jī)器協(xié)作,讓技術(shù)真正服務(wù)于人類的發(fā)展和幸福。
Q&A
Q1:AI機(jī)器人和人類審查員在代碼審查中的主要區(qū)別是什么?
A:AI機(jī)器人的評(píng)論比人類長(zhǎng)很多(每行代碼平均29.6個(gè)詞對(duì)比4.1個(gè)詞),主要專注于代碼改進(jìn)和錯(cuò)誤檢測(cè),占95%以上。而人類審查員提供更多樣化的反饋,包括理解確認(rèn)、知識(shí)傳授、測(cè)試建議等,更注重深度交流和項(xiàng)目背景理解。
Q2:為什么AI機(jī)器人提出的建議采納率這么低?
A:AI機(jī)器人建議的采納率只有16.6%,遠(yuǎn)低于人類的56.5%。主要原因包括:28.7%的建議本身錯(cuò)誤,24%的建議雖然發(fā)現(xiàn)了問題但解決方案不合適,16.4%被認(rèn)為不必要,還有一些是項(xiàng)目上下文理解不足導(dǎo)致的誤判。
Q3:人機(jī)協(xié)作的代碼審查模式效果如何?
A:研究發(fā)現(xiàn)最佳模式是讓AI負(fù)責(zé)初步篩查和標(biāo)準(zhǔn)化檢查,人類負(fù)責(zé)深度分析和最終決策。當(dāng)對(duì)話以人類回復(fù)結(jié)尾時(shí),代碼被拒絕率只有0.9%-7.8%,而以AI回復(fù)結(jié)尾時(shí)拒絕率高達(dá)7.1%-25.8%,說(shuō)明人類在最終決策中起關(guān)鍵作用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.