網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic把測(cè)試寫進(jìn)5步：QA團(tuán)隊(duì)發(fā)現(xiàn)后集體算了一筆賬

2026-03-25 14:56:36　來源: 賽博蘭博

北京舉報(bào)

分享至

一個(gè)QA工程師寫完整套注冊(cè)頁(yè)測(cè)試要多久？4小時(shí)是保守估計(jì)，2小時(shí)是資深選手的極限操作。Anthropic最新放出的Agentic QA工作流，把這個(gè)數(shù)字壓到了5分鐘——從提示詞到通過測(cè)試，全程零人工干預(yù)。

這不是Demo炫技。他們公開了完整的技術(shù)棧：CLAUDE.md規(guī)則引擎、技能文件（Skill Files）、Playwright瀏覽器工具，三層架構(gòu)環(huán)環(huán)相扣。我看完第一反應(yīng)是：這哪是AI寫測(cè)試，這是把QA工程師的腦回路給數(shù)字化了。

第一步：讀規(guī)則，比新人入職培訓(xùn)還快

Agent啟動(dòng)后的第一個(gè)動(dòng)作是打開CLAUDE.md。這個(gè)文件里藏著項(xiàng)目的「憲法」：強(qiáng)制規(guī)則、工作流、需要加載的技能清單。針對(duì)注冊(cè)頁(yè)測(cè)試任務(wù)，Agent自動(dòng)勾選了5項(xiàng)技能：playwright-cli、selectors、page-objects、test-standards、data-strategy。

人類新人入職，光熟悉這些規(guī)范就得半天。Agent的讀取時(shí)間是——我數(shù)了一下原文的描述節(jié)奏——基本等于文件打開的瞬間。規(guī)則不再是文檔，變成了可執(zhí)行的配置。

這里有個(gè)細(xì)節(jié)值得玩味。CLAUDE.md里寫的不是「寫個(gè)好測(cè)試」，而是具體到「Page Object Model怎么分層」「locator getter和action method的區(qū)別」「組件如何組合進(jìn)page object」。顆粒度細(xì)到能直接落地，這是大多數(shù)團(tuán)隊(duì)的文檔做不到的。

第二步：探應(yīng)用，DOM結(jié)構(gòu)秒變結(jié)構(gòu)化數(shù)據(jù)

Agent通過playwright-cli向?yàn)g覽器發(fā)出指令：「訪問/register，列出所有表單字段、按鈕、標(biāo)題和驗(yàn)證信息。」返回的結(jié)果是一份機(jī)器直接能讀的清單：

標(biāo)題："Create your account"（role: heading, level: 1）

必填字段：First name、Last name、Email address、Password、Confirm password

密碼框帶占位提示："At least 8 characters"

主按鈕："Create account"

輔助鏈接："Already have an account? Sign in"

人類做同樣的事需要打開DevTools、逐元素檢查、復(fù)制selector、整理成文檔。Agent的「觀察」是結(jié)構(gòu)化的、可消費(fèi)的、直接能進(jìn)代碼的。原文里用了「Discovery result」這個(gè)詞，很準(zhǔn)確——這不是瀏覽，是勘探。

我注意到一個(gè)設(shè)計(jì)巧思：Agent被要求同時(shí)抓取「role、label、placeholder」等多維屬性。這意味著它拿到的不是裸DOM，而是帶語義標(biāo)簽的地圖。可訪問性（Accessibility）屬性在這里成了機(jī)器理解的橋梁，一舉兩得。

第三步：抄作業(yè)，現(xiàn)有代碼庫(kù)就是最佳教材

Agent接下來做了件很「人類」的事：它去翻了pages/app/和test-data/factories/app/，看前輩們?cè)趺磳懙摹age object怎么分層？Factory用什么格式？Fixture怎么注入？

這一步解決了AI寫代碼的千古難題——風(fēng)格一致性。沒有這一步，Agent生成的代碼會(huì)像外包團(tuán)隊(duì)交的活：能跑，但和現(xiàn)有 codebase 格格不入。有了這一步，它寫的是「我們項(xiàng)目的代碼」，不是「AI生成的代碼」。

原文在這里留了個(gè)懸念，第四步和第五步的內(nèi)容被截?cái)嗔恕５珡囊雅兜男畔⑼茢啵暾牧鞒虘?yīng)該是：生成page object → 創(chuàng)建user factory → 組裝fixture → 編寫smoke test → 覆蓋validation error的回歸測(cè)試。

傳統(tǒng)流程里，這幾步環(huán)環(huán)相扣，一步錯(cuò)步步錯(cuò)。Agent的優(yōu)勢(shì)在于上下文不丟失：它記得CLAUDE.md的規(guī)則、記得剛才探到的DOM結(jié)構(gòu)、記得現(xiàn)有代碼的模式，三股信息流在同一個(gè)上下文窗口里碰撞。

算賬時(shí)刻：4小時(shí) vs 5分鐘，省下的時(shí)間去哪了？

原文列出的「Before agentic QA」清單很扎心：Inspecting the DOM, writing locators, setting up factories, wiring fixtures, writing tests, debugging failures。6個(gè)環(huán)節(jié)，每個(gè)都是時(shí)間黑洞。

Agent的輸入只有一句話："The app has a new user registration page at /register. Create a page object, a user factory, a smoke test, and regression tests for validation errors."

我算了筆賬。假設(shè)一個(gè)迭代周期有20個(gè)類似的功能點(diǎn)需要測(cè)試覆蓋，傳統(tǒng)模式需要80小時(shí)（2人周），Agentic模式需要100分鐘。省下的時(shí)間如果投入探索性測(cè)試、性能壓測(cè)、安全掃描，QA團(tuán)隊(duì)的價(jià)值主張會(huì)完全變樣。

但原文也埋了伏筆：「an agent is only as good as the instructions it follows」。這句話出現(xiàn)在第二篇的結(jié)尾，像一句警告。5分鐘的奇跡背后，是CLAUDE.md的精心編寫、技能文件的領(lǐng)域沉淀、Playwright工具的原子化設(shè)計(jì)。沒有這些基建，Agent就是另一個(gè)會(huì)胡寫的Copilot。

技術(shù)棧拆解：三層架構(gòu)各自扛什么

把五篇文章串起來看，Anthropic搭的是個(gè)三層系統(tǒng)：

底層：項(xiàng)目腳手架（Project Scaffold）——給AI設(shè)計(jì)的目錄結(jié)構(gòu)，讓Agent知道去哪找什么。

中間層：規(guī)則與技能（CLAUDE.md + Skill Files）——規(guī)則定邊界，技能填內(nèi)容。「用Page Object Model」是規(guī)則，「page object具體怎么寫」是技能。

上層：感知與執(zhí)行（Browser Tool + Agent Loop）——讓Agent能看見應(yīng)用、能操作瀏覽器、能驗(yàn)證結(jié)果。

這個(gè)分層很產(chǎn)品經(jīng)理思維。每一層解決一個(gè)明確的問題，層與層之間接口清晰。換團(tuán)隊(duì)、換技術(shù)棧，可以只換技能文件層，骨架不動(dòng)。

原文有個(gè)類比讓我印象很深：「a good structure only gets you so far if the AI is just a code suggester」。代碼建議器（Code Suggester）和代理（Agent）的區(qū)別，就像導(dǎo)航App和自動(dòng)駕駛——前者告訴你怎么走，后者直接踩油門。

一個(gè)被忽略的細(xì)節(jié)：調(diào)試去哪了？

傳統(tǒng)測(cè)試開發(fā)里，寫代碼占3成時(shí)間，調(diào)試占7成。Agentic QA的原文幾乎沒提調(diào)試環(huán)節(jié)，這是刻意省略還是真的不需要？

從披露的信息推測(cè)，調(diào)試被前置到了「探索應(yīng)用」和「檢查現(xiàn)有模式」兩步。Agent在寫第一行代碼前，已經(jīng)確認(rèn)了DOM結(jié)構(gòu)、確認(rèn)了代碼風(fēng)格、確認(rèn)了規(guī)則邊界。人類調(diào)試是因?yàn)椤覆恢罆?huì)出什么問題」，Agent的確定性來自「先探后寫」。

但這有個(gè)前提：被測(cè)應(yīng)用是穩(wěn)定的。如果注冊(cè)頁(yè)還在頻繁改版，Agent的「勘探」結(jié)果可能很快過期。原文沒覆蓋這個(gè)場(chǎng)景，可能是五篇文章的篇幅限制，也可能是留給讀者的思考題。

另一個(gè)開放問題是驗(yàn)證策略。Agent寫的測(cè)試，誰來驗(yàn)證它測(cè)對(duì)了？原文的標(biāo)題叫「From Prompt to Passing Test」，暗示測(cè)試最終是通過狀態(tài)。但「通過」不等于「有效」，這是QA領(lǐng)域的老生常談。Anthropic是否設(shè)計(jì)了元測(cè)試（Test for the test），第五篇之后的內(nèi)容值得期待。

技術(shù)債的角度也值得玩味。Agent生成的測(cè)試代碼，未來由誰維護(hù)？如果下一個(gè)人類QA接手，他能讀懂AI的寫法嗎？原文強(qiáng)調(diào)Agent會(huì)「抄現(xiàn)有模式」，這降低了認(rèn)知門檻，但長(zhǎng)期看，團(tuán)隊(duì)可能需要建立「AI生成代碼」的審查規(guī)范。

回到開頭那個(gè)4小時(shí)vs5分鐘的對(duì)比。數(shù)字很刺激，但真正的問題或許是：當(dāng)機(jī)械勞動(dòng)被壓縮到極限，QA工程師的專業(yè)價(jià)值該如何重新定義？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.