網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

皇后大學(xué)揭秘：AI機(jī)器人與人類程序員的代碼審查大作戰(zhàn)

2026-03-31 16:25:19　來(lái)源: 科技行者

天津舉報(bào)

分享至

當(dāng)你寫完一段代碼，準(zhǔn)備提交到項(xiàng)目中時(shí)，通常會(huì)有同事幫你檢查一遍——這個(gè)過程叫做代碼審查，就像文章發(fā)表前的編輯校對(duì)一樣重要。不過現(xiàn)在情況有了變化：越來(lái)越多的AI機(jī)器人也開始參與代碼審查工作，它們能自動(dòng)發(fā)現(xiàn)bug、提出改進(jìn)建議，甚至與人類開發(fā)者展開討論。這引發(fā)了一個(gè)有趣的問題：AI審查員和人類審查員到底誰(shuí)更厲害？它們的合作效果如何？

加拿大皇后大學(xué)的研究團(tuán)隊(duì)最近完成了一項(xiàng)大規(guī)模研究，分析了278,790次代碼審查對(duì)話，涵蓋300個(gè)開源GitHub項(xiàng)目，時(shí)間跨度從2022年到2025年。這項(xiàng)研究發(fā)表于2026年3月的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2603.15911v1。研究團(tuán)隊(duì)深入探討了AI機(jī)器人審查員與人類審查員在反饋質(zhì)量、互動(dòng)模式和建議采納率方面的差異，為我們揭示了人機(jī)協(xié)作審查的真實(shí)面貌。

研究發(fā)現(xiàn)，AI機(jī)器人的表現(xiàn)確實(shí)令人印象深刻，但也暴露出明顯的局限性。AI機(jī)器人生成的評(píng)論比人類長(zhǎng)得多，平均每行代碼產(chǎn)生29.6個(gè)詞匯，而人類只需要4.1個(gè)詞匯。更有趣的是，AI機(jī)器人幾乎完全專注于代碼改進(jìn)和錯(cuò)誤檢測(cè)，超過95%的評(píng)論都集中在這兩個(gè)方面。相比之下，人類審查員的反饋更加多樣化，不僅關(guān)注技術(shù)問題，還會(huì)進(jìn)行理解確認(rèn)、知識(shí)傳授和測(cè)試建議。

在實(shí)際應(yīng)用效果方面，研究揭示了一個(gè)令人意外的現(xiàn)象：雖然AI機(jī)器人提出的代碼建議數(shù)量是人類的三倍多（88,011個(gè)對(duì)比25,673個(gè)），但它們的建議被采納率卻顯著偏低，只有16.6%，而人類審查員的建議采納率高達(dá)56.5%。更值得注意的是，當(dāng)AI機(jī)器人的建議被采納后，往往會(huì)增加代碼的復(fù)雜性和體積，這與良好的編程實(shí)踐相矛盾。

一、AI機(jī)器人審查員：話多但精準(zhǔn)度有限的助手

當(dāng)我們把AI機(jī)器人比作一位勤奮但經(jīng)驗(yàn)不足的新員工時(shí)，就能更好地理解它們的工作特點(diǎn)。這位"新員工"非常努力，總是寫很長(zhǎng)很詳細(xì)的報(bào)告，但往往抓不住重點(diǎn)，有時(shí)還會(huì)犯一些基礎(chǔ)錯(cuò)誤。

研究團(tuán)隊(duì)通過分析發(fā)現(xiàn)，AI機(jī)器人審查員有著鮮明的工作風(fēng)格特征。它們就像那種做事特別認(rèn)真、報(bào)告寫得特別詳細(xì)的同事，每次都要把所有細(xì)節(jié)說(shuō)得清清楚楚。當(dāng)人類審查員只需要簡(jiǎn)單指出"這里有個(gè)小問題"時(shí)，AI機(jī)器人會(huì)寫一大段話，不僅指出問題，還要解釋原因、引用相關(guān)規(guī)則、列出需要修改的文件清單，甚至給出嚴(yán)重性等級(jí)。

這種差異就像兩種不同的溝通方式：人類審查員更像經(jīng)驗(yàn)豐富的老師，能夠一針見血地指出核心問題；而AI機(jī)器人更像剛?cè)肼毜膶?shí)習(xí)生，什么都想說(shuō)，生怕遺漏重要信息。雖然詳細(xì)程度高，但這種冗長(zhǎng)的表達(dá)方式往往會(huì)增加閱讀負(fù)擔(dān)，讓開發(fā)者需要花更多時(shí)間理解建議的核心內(nèi)容。

更重要的是，AI機(jī)器人的關(guān)注點(diǎn)相當(dāng)有限。研究顯示，它們幾乎把所有注意力都集中在兩個(gè)方面：發(fā)現(xiàn)代碼錯(cuò)誤和提出改進(jìn)建議。這就像一個(gè)只會(huì)查語(yǔ)法錯(cuò)誤和標(biāo)點(diǎn)符號(hào)的校對(duì)軟件，雖然在這些方面很專業(yè)，但完全不會(huì)考慮文章的邏輯結(jié)構(gòu)、讀者感受或者寫作目的。

相比之下，人類審查員的反饋就豐富多了。除了技術(shù)問題，他們還會(huì)問"你為什么要這樣實(shí)現(xiàn)？"、"這個(gè)設(shè)計(jì)考慮了哪些場(chǎng)景？"或者"我建議你看看項(xiàng)目中的其他類似實(shí)現(xiàn)"。這些問題反映了人類審查員不僅關(guān)注代碼本身，還關(guān)注背后的設(shè)計(jì)思路、團(tuán)隊(duì)知識(shí)共享和項(xiàng)目一致性。

研究還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象：當(dāng)涉及理解和澄清的討論時(shí)，人類主導(dǎo)的對(duì)話往往會(huì)產(chǎn)生更多輪次的交流。平均來(lái)說(shuō)，理解類反饋會(huì)引發(fā)2.1到2.3輪討論，而AI機(jī)器人的反饋基本上都是"一次性消費(fèi)"，很少引發(fā)深入對(duì)話。這就像AI機(jī)器人更適合做標(biāo)準(zhǔn)化檢查工作，而人類更擅長(zhǎng)進(jìn)行深度交流和知識(shí)傳遞。

二、人機(jī)對(duì)話模式：誰(shuí)說(shuō)話、何時(shí)說(shuō)、如何結(jié)束

代碼審查中的人機(jī)互動(dòng)就像一場(chǎng)精心編排的對(duì)話劇，每個(gè)角色都有自己的臺(tái)詞和出場(chǎng)時(shí)機(jī)。研究團(tuán)隊(duì)通過分析這些對(duì)話模式，發(fā)現(xiàn)了一些令人意外的規(guī)律。

當(dāng)人類審查員遇到AI生成的代碼時(shí)，對(duì)話變得格外"活躍"。數(shù)據(jù)顯示，人類審查員在審查AI生成代碼時(shí)的交流輪次比審查人類代碼時(shí)多出11.8%。這種現(xiàn)象很好理解：當(dāng)你讀到一段看起來(lái)正確但又感覺哪里不對(duì)的代碼時(shí)，自然會(huì)產(chǎn)生更多疑問。人類審查員經(jīng)常需要多問幾句"你為什么要這樣寫？"、"這個(gè)邏輯的依據(jù)是什么？"來(lái)確保自己真正理解了AI的想法。

這種情況就像你在閱讀一本翻譯小說(shuō)，雖然語(yǔ)法和用詞都沒問題，但總感覺表達(dá)方式有些別扭，于是不得不反復(fù)琢磨作者的真實(shí)意圖。AI生成的代碼也會(huì)給人類審查員帶來(lái)類似的困惑，需要更多輪的確認(rèn)和澄清。

然而，當(dāng)AI機(jī)器人扮演審查員角色時(shí)，對(duì)話模式就完全不同了。研究發(fā)現(xiàn)，85%到87%的AI發(fā)起的審查對(duì)話都在第一輪就結(jié)束了，沒有任何后續(xù)交流。這就像AI機(jī)器人說(shuō)完自己要說(shuō)的話后就沉默了，不管別人是否理解、同意或者有其他想法。

這種行為模式反映了AI機(jī)器人在互動(dòng)交流方面的重大局限。真正的代碼審查往往不是一錘子買賣，而是一個(gè)持續(xù)的協(xié)商過程。審查員提出建議后，代碼作者可能會(huì)解釋自己的想法，審查員再根據(jù)新信息調(diào)整建議，雙方經(jīng)過幾輪交流最終達(dá)成共識(shí)。但AI機(jī)器人目前還不具備這種動(dòng)態(tài)調(diào)整和深度互動(dòng)的能力。

更值得注意的是，研究發(fā)現(xiàn)了一個(gè)關(guān)于對(duì)話結(jié)局的重要模式：當(dāng)對(duì)話以AI機(jī)器人的回復(fù)作為結(jié)尾時(shí)，代碼被拒絕的概率顯著提高（7.1%到25.8%），而以人類回復(fù)結(jié)尾的對(duì)話被拒絕率要低得多（0.9%到7.8%）。這個(gè)現(xiàn)象揭示了人類在最終決策中的關(guān)鍵作用。

可以把這種情況比作團(tuán)隊(duì)開會(huì)討論項(xiàng)目方案：AI機(jī)器人善于提出技術(shù)性建議和發(fā)現(xiàn)問題，但人類更擅長(zhǎng)綜合考慮各種因素、權(quán)衡利弊并做出最終決定。當(dāng)一場(chǎng)討論以人類的總結(jié)和確認(rèn)結(jié)束時(shí)，通常意味著各方已經(jīng)達(dá)成共識(shí)；而如果討論在AI機(jī)器人發(fā)言后就戛然而止，往往說(shuō)明還有未解決的分歧或疑慮。

這種對(duì)話模式的分析為我們提供了重要啟示：在設(shè)計(jì)人機(jī)協(xié)作的代碼審查系統(tǒng)時(shí)，不應(yīng)該讓AI機(jī)器人完全替代人類，而應(yīng)該讓它們發(fā)揮各自的優(yōu)勢(shì)，AI負(fù)責(zé)初步篩查和標(biāo)準(zhǔn)化檢查，人類負(fù)責(zé)深度討論和最終決策。

三、建議質(zhì)量大比拼：數(shù)量多不等于質(zhì)量高

在代碼審查中提出改進(jìn)建議就像給菜譜提意見：有的建議一針見血，讓整道菜立刻變得更美味；有的建議聽起來(lái)有道理，但實(shí)施起來(lái)要么行不通，要么讓菜變得更復(fù)雜。研究團(tuán)隊(duì)對(duì)AI機(jī)器人和人類審查員提出的代碼建議進(jìn)行了詳細(xì)對(duì)比，結(jié)果發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象。

從數(shù)量上看，AI機(jī)器人確實(shí)是"建議制造機(jī)"，它們總共提出了88,011個(gè)代碼修改建議，是人類審查員25,673個(gè)建議的三倍多。但正如俗話說(shuō)的"貴精不貴多"，建議的質(zhì)量比數(shù)量更重要。事實(shí)證明，AI機(jī)器人的建議雖然多，但被實(shí)際采納的比例卻令人失望。

具體來(lái)看，人類審查員的建議有56.5%被采納并最終合并到代碼庫(kù)中，而AI機(jī)器人的采納率只有16.6%。這種巨大差距就像兩個(gè)購(gòu)物顧問的表現(xiàn)對(duì)比：一個(gè)經(jīng)驗(yàn)豐富的顧問推薦的商品你會(huì)經(jīng)常購(gòu)買，而另一個(gè)新手顧問雖然推薦了很多商品，但你真正買的寥寥無(wú)幾。

為什么會(huì)出現(xiàn)這種差距？研究團(tuán)隊(duì)深入分析了那些未被采納的AI建議，發(fā)現(xiàn)了幾個(gè)主要原因。最常見的問題是AI機(jī)器人的建議本身就是錯(cuò)誤的，占未采納建議的28.7%。比如，AI機(jī)器人可能會(huì)指出某個(gè)命名空間缺失會(huì)導(dǎo)致編譯失敗，但實(shí)際上這個(gè)命名空間在項(xiàng)目的其他地方已經(jīng)正確引入了，代碼能夠正常編譯。這就像一個(gè)不熟悉廚房布局的人告訴廚師"鹽找不到了"，但實(shí)際上鹽就在廚師觸手可及的地方。

第二大問題是"方案不匹配"，占24.0%。在這種情況下，AI機(jī)器人確實(shí)發(fā)現(xiàn)了真實(shí)存在的問題，但提出的解決方案與開發(fā)者的實(shí)際想法不符。這就像AI機(jī)器人發(fā)現(xiàn)了菜品味道偏淡的問題（分析正確），但建議加糖（方案不合適），而廚師實(shí)際想加的是鹽。

除此之外，還有16.4%的建議被認(rèn)為是"不必要的"——AI機(jī)器人提出的修改在技術(shù)上可行，但開發(fā)者認(rèn)為當(dāng)前的實(shí)現(xiàn)已經(jīng)足夠好，不需要改變。另有11.2%的情況是開發(fā)者聲稱已經(jīng)修復(fù)了問題，但實(shí)際上并沒有在代碼庫(kù)中看到相應(yīng)的更改。

這些問題的根本原因在于AI機(jī)器人缺乏項(xiàng)目上下文的理解能力。它們就像一個(gè)從教科書學(xué)會(huì)做菜的廚師，知道很多通用規(guī)則和技巧，但不了解這家餐廳的特色、食客的偏好，以及現(xiàn)有菜譜的設(shè)計(jì)理念。

相比之下，人類審查員的建議質(zhì)量為什么更高？研究發(fā)現(xiàn)，人類在提出建議時(shí)會(huì)綜合考慮多個(gè)因素：項(xiàng)目的整體架構(gòu)、團(tuán)隊(duì)的編碼風(fēng)格、已有的設(shè)計(jì)決策，以及實(shí)際的業(yè)務(wù)需求。他們不僅關(guān)注代碼的技術(shù)正確性，還會(huì)考慮可維護(hù)性、可讀性和與現(xiàn)有系統(tǒng)的一致性。

更重要的是，當(dāng)AI機(jī)器人的建議被采納后，代碼的復(fù)雜度往往會(huì)顯著增加。研究數(shù)據(jù)顯示，采納AI建議后，代碼復(fù)雜度的增長(zhǎng)幅度比采納人類建議時(shí)高出0.085到0.106個(gè)單位，代碼行數(shù)的增長(zhǎng)也更明顯。這就像AI機(jī)器人總是傾向于提供更"安全"但也更復(fù)雜的解決方案，而人類更善于找到簡(jiǎn)潔優(yōu)雅的解決辦法。

不過，這并不意味著AI機(jī)器人的建議毫無(wú)價(jià)值。在某些特定領(lǐng)域，比如發(fā)現(xiàn)明顯的編碼錯(cuò)誤或提醒遵循標(biāo)準(zhǔn)編碼規(guī)范，AI機(jī)器人的表現(xiàn)還是相當(dāng)不錯(cuò)的。問題在于如何更好地利用AI的優(yōu)勢(shì)，同時(shí)彌補(bǔ)它的不足。

四、人機(jī)協(xié)作的藝術(shù)：各展所長(zhǎng)還是互相制肘

代碼審查中的人機(jī)協(xié)作就像一支交響樂隊(duì)的演出：每個(gè)樂手都有自己的專長(zhǎng)，關(guān)鍵是如何協(xié)調(diào)配合，讓整體效果達(dá)到最佳。研究團(tuán)隊(duì)通過分析大量的協(xié)作案例，發(fā)現(xiàn)了一些有趣的協(xié)作模式和潛在的改進(jìn)方向。

在最理想的情況下，AI機(jī)器人和人類審查員能夠形成互補(bǔ)關(guān)系。AI機(jī)器人擅長(zhǎng)做那些標(biāo)準(zhǔn)化、重復(fù)性的檢查工作，比如發(fā)現(xiàn)語(yǔ)法錯(cuò)誤、檢查代碼格式、識(shí)別常見的安全漏洞等。這些工作對(duì)人類來(lái)說(shuō)往往比較枯燥，而且容易因?yàn)樽⒁饬Ψ稚⒍z漏。相當(dāng)于讓AI機(jī)器人擔(dān)任"質(zhì)檢員"的角色，負(fù)責(zé)基礎(chǔ)的質(zhì)量把關(guān)。

與此同時(shí)，人類審查員則專注于需要?jiǎng)?chuàng)造性思維和深度理解的工作：評(píng)估設(shè)計(jì)方案的合理性、判斷代碼是否符合業(yè)務(wù)需求、進(jìn)行知識(shí)傳授和團(tuán)隊(duì)溝通等。這些工作需要豐富的經(jīng)驗(yàn)、對(duì)項(xiàng)目背景的深度理解，以及良好的溝通技巧，是AI機(jī)器人目前還無(wú)法勝任的。

然而，現(xiàn)實(shí)中的協(xié)作并非總是如此和諧。研究發(fā)現(xiàn)了一些值得關(guān)注的問題。比如，當(dāng)AI機(jī)器人參與審查時(shí)，人類審查員往往需要花更多時(shí)間來(lái)理解和驗(yàn)證AI的建議，這在一定程度上增加了工作負(fù)擔(dān)。就像團(tuán)隊(duì)中新加入了一個(gè)熱情但經(jīng)驗(yàn)不足的成員，老員工需要花額外的時(shí)間來(lái)指導(dǎo)和檢查新成員的工作。

另一個(gè)問題是AI機(jī)器人的"固執(zhí)"特性。當(dāng)人類審查員對(duì)AI的建議提出質(zhì)疑或不同意見時(shí)，AI機(jī)器人往往無(wú)法進(jìn)行有效的回應(yīng)和調(diào)整。這就像一個(gè)只會(huì)按照說(shuō)明書操作的助手，當(dāng)遇到說(shuō)明書上沒有的情況時(shí)，就不知道該怎么辦了。

研究還發(fā)現(xiàn)，不同類型的代碼審查任務(wù)適合不同的協(xié)作模式。對(duì)于新項(xiàng)目或者實(shí)驗(yàn)性代碼，人類主導(dǎo)的審查模式效果更好，因?yàn)檫@類代碼往往需要更多的創(chuàng)新思考和靈活判斷。而對(duì)于成熟項(xiàng)目中的常規(guī)維護(hù)工作，AI機(jī)器人能夠發(fā)揮更大的作用，幫助快速識(shí)別明顯的問題。

最有趣的發(fā)現(xiàn)是關(guān)于"審查接力"的現(xiàn)象。在一些復(fù)雜的代碼審查中，AI機(jī)器人首先進(jìn)行初步掃描，標(biāo)記出可能的問題點(diǎn)，然后人類審查員基于這些信息進(jìn)行深入分析和最終決策。這種模式既利用了AI的效率優(yōu)勢(shì)，又保證了人類判斷的質(zhì)量。

不過，這種協(xié)作模式也存在一些挑戰(zhàn)。比如，如何確保AI機(jī)器人提供的信息是準(zhǔn)確的？如何避免人類過度依賴AI的判斷？如何在效率和質(zhì)量之間找到平衡？這些都是需要在實(shí)踐中不斷探索和優(yōu)化的問題。

研究團(tuán)隊(duì)發(fā)現(xiàn)，最成功的協(xié)作案例往往有幾個(gè)共同特點(diǎn)：首先，明確分工，讓AI和人類各自承擔(dān)適合自己的任務(wù)；其次，建立有效的信息傳遞機(jī)制，確保AI的發(fā)現(xiàn)能夠準(zhǔn)確傳達(dá)給人類審查員；最后，保持人類的最終決策權(quán)，確保重要決定都經(jīng)過人類的審慎考慮。

五、背后的深層含義：技術(shù)進(jìn)步與人文關(guān)懷的平衡

這項(xiàng)研究揭示的問題遠(yuǎn)比表面上的技術(shù)對(duì)比更加深刻。在AI技術(shù)快速發(fā)展的今天，我們正面臨著一個(gè)根本性的選擇：是讓機(jī)器完全取代人類的判斷，還是找到人機(jī)協(xié)作的最佳平衡點(diǎn)？

從表面上看，AI機(jī)器人在代碼審查中的表現(xiàn)似乎不如人類，但這個(gè)結(jié)論需要更加細(xì)致的分析。AI機(jī)器人的價(jià)值不僅在于它能做什么，更在于它能為人類節(jié)省多少時(shí)間和精力。即使AI的建議采納率不高，但它能夠幫助人類快速篩選和識(shí)別潛在問題，這本身就是一種價(jià)值。

比如，AI機(jī)器人提出的88,011個(gè)建議中，雖然只有16.6%被采納，但這意味著有14,600多個(gè)有價(jià)值的改進(jìn)被實(shí)現(xiàn)了。如果沒有AI的幫助，人類審查員可能根本沒有時(shí)間和精力發(fā)現(xiàn)這么多問題。從這個(gè)角度看，AI機(jī)器人更像是一個(gè)"放大鏡"，幫助人類看到原本可能忽略的細(xì)節(jié)。

研究還反映了一個(gè)重要的社會(huì)學(xué)現(xiàn)象：技術(shù)的采用不僅僅是一個(gè)技術(shù)問題，更是一個(gè)社會(huì)適應(yīng)問題。人類對(duì)AI建議的低采納率，部分原因可能是對(duì)新技術(shù)的天然警惕和不信任。隨著AI技術(shù)的不斷改進(jìn)和人們經(jīng)驗(yàn)的積累，這種情況可能會(huì)發(fā)生改變。

同時(shí)，研究也提醒我們注意AI技術(shù)的局限性。AI機(jī)器人缺乏對(duì)項(xiàng)目背景和團(tuán)隊(duì)文化的理解，這不是一個(gè)純粹的技術(shù)問題，而是涉及到知識(shí)的傳承、經(jīng)驗(yàn)的積累和人際關(guān)系的建立。這些"軟技能"目前仍然是人類的獨(dú)特優(yōu)勢(shì)。

從長(zhǎng)遠(yuǎn)來(lái)看，這項(xiàng)研究為AI技術(shù)的發(fā)展指明了方向。未來(lái)的AI系統(tǒng)需要更好地理解項(xiàng)目上下文，學(xué)會(huì)與人類進(jìn)行有效的雙向溝通，并且能夠根據(jù)反饋動(dòng)態(tài)調(diào)整自己的行為。這不僅需要技術(shù)上的突破，也需要在系統(tǒng)設(shè)計(jì)時(shí)更多地考慮人性化因素。

另一個(gè)值得思考的問題是評(píng)價(jià)標(biāo)準(zhǔn)。我們是否應(yīng)該簡(jiǎn)單地用采納率來(lái)衡量AI建議的價(jià)值？也許AI提出的那些未被采納的建議中，有一些雖然當(dāng)時(shí)被拒絕，但為開發(fā)者提供了新的思考角度，或者在后續(xù)的開發(fā)中被證明是有價(jià)值的。這種隱性價(jià)值很難量化，但同樣重要。

最后，這項(xiàng)研究也讓我們思考工作的未來(lái)形態(tài)。代碼審查只是軟件開發(fā)過程中的一個(gè)環(huán)節(jié)，但它反映的問題具有普遍性：在AI技術(shù)快速發(fā)展的時(shí)代，如何重新定義人類的角色和價(jià)值？如何設(shè)計(jì)出真正有利于人類發(fā)展的人機(jī)協(xié)作模式？這些問題的答案將影響到每一個(gè)人的職業(yè)生涯和生活方式。

說(shuō)到底，這項(xiàng)研究告訴我們的不僅僅是AI和人類在代碼審查中的表現(xiàn)差異，更是關(guān)于人機(jī)協(xié)作的深層思考。AI機(jī)器人雖然在某些方面表現(xiàn)出色，但人類的創(chuàng)造力、判斷力和溝通能力仍然無(wú)可替代。最理想的未來(lái)可能不是AI取代人類，而是AI和人類各司其職，共同創(chuàng)造出比單獨(dú)工作更優(yōu)秀的結(jié)果。這種協(xié)作關(guān)系的建立需要技術(shù)進(jìn)步，更需要我們重新思考工作的意義和人類的價(jià)值。

對(duì)于每一個(gè)在技術(shù)行業(yè)工作的人來(lái)說(shuō)，這項(xiàng)研究提供了寶貴的參考。它提醒我們既要擁抱新技術(shù)帶來(lái)的便利，也要保持對(duì)人類獨(dú)特價(jià)值的信心。在AI機(jī)器人越來(lái)越智能的今天，人類最重要的能力可能不是與機(jī)器競(jìng)爭(zhēng)，而是學(xué)會(huì)如何更好地與機(jī)器協(xié)作，讓技術(shù)真正服務(wù)于人類的發(fā)展和幸福。

Q&A

Q1：AI機(jī)器人和人類審查員在代碼審查中的主要區(qū)別是什么？

A：AI機(jī)器人的評(píng)論比人類長(zhǎng)很多（每行代碼平均29.6個(gè)詞對(duì)比4.1個(gè)詞），主要專注于代碼改進(jìn)和錯(cuò)誤檢測(cè)，占95%以上。而人類審查員提供更多樣化的反饋，包括理解確認(rèn)、知識(shí)傳授、測(cè)試建議等，更注重深度交流和項(xiàng)目背景理解。

Q2：為什么AI機(jī)器人提出的建議采納率這么低？

A：AI機(jī)器人建議的采納率只有16.6%，遠(yuǎn)低于人類的56.5%。主要原因包括：28.7%的建議本身錯(cuò)誤，24%的建議雖然發(fā)現(xiàn)了問題但解決方案不合適，16.4%被認(rèn)為不必要，還有一些是項(xiàng)目上下文理解不足導(dǎo)致的誤判。

Q3：人機(jī)協(xié)作的代碼審查模式效果如何？

A：研究發(fā)現(xiàn)最佳模式是讓AI負(fù)責(zé)初步篩查和標(biāo)準(zhǔn)化檢查，人類負(fù)責(zé)深度分析和最終決策。當(dāng)對(duì)話以人類回復(fù)結(jié)尾時(shí)，代碼被拒絕率只有0.9%-7.8%，而以AI回復(fù)結(jié)尾時(shí)拒絕率高達(dá)7.1%-25.8%，說(shuō)明人類在最終決策中起關(guān)鍵作用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.