![]()
一個(gè)QA工程師寫完整套注冊(cè)頁(yè)測(cè)試要多久?4小時(shí)是保守估計(jì),2小時(shí)是資深選手的極限操作。Anthropic最新放出的Agentic QA工作流,把這個(gè)數(shù)字壓到了5分鐘——從提示詞到通過測(cè)試,全程零人工干預(yù)。
這不是Demo炫技。他們公開了完整的技術(shù)棧:CLAUDE.md規(guī)則引擎、技能文件(Skill Files)、Playwright瀏覽器工具,三層架構(gòu)環(huán)環(huán)相扣。我看完第一反應(yīng)是:這哪是AI寫測(cè)試,這是把QA工程師的腦回路給數(shù)字化了。
第一步:讀規(guī)則,比新人入職培訓(xùn)還快
Agent啟動(dòng)后的第一個(gè)動(dòng)作是打開CLAUDE.md。這個(gè)文件里藏著項(xiàng)目的「憲法」:強(qiáng)制規(guī)則、工作流、需要加載的技能清單。針對(duì)注冊(cè)頁(yè)測(cè)試任務(wù),Agent自動(dòng)勾選了5項(xiàng)技能:playwright-cli、selectors、page-objects、test-standards、data-strategy。
人類新人入職,光熟悉這些規(guī)范就得半天。Agent的讀取時(shí)間是——我數(shù)了一下原文的描述節(jié)奏——基本等于文件打開的瞬間。規(guī)則不再是文檔,變成了可執(zhí)行的配置。
這里有個(gè)細(xì)節(jié)值得玩味。CLAUDE.md里寫的不是「寫個(gè)好測(cè)試」,而是具體到「Page Object Model怎么分層」「locator getter和action method的區(qū)別」「組件如何組合進(jìn)page object」。顆粒度細(xì)到能直接落地,這是大多數(shù)團(tuán)隊(duì)的文檔做不到的。
第二步:探應(yīng)用,DOM結(jié)構(gòu)秒變結(jié)構(gòu)化數(shù)據(jù)
Agent通過playwright-cli向?yàn)g覽器發(fā)出指令:「訪問/register,列出所有表單字段、按鈕、標(biāo)題和驗(yàn)證信息。」返回的結(jié)果是一份機(jī)器直接能讀的清單:
標(biāo)題:"Create your account"(role: heading, level: 1)
必填字段:First name、Last name、Email address、Password、Confirm password
密碼框帶占位提示:"At least 8 characters"
主按鈕:"Create account"
輔助鏈接:"Already have an account? Sign in"
人類做同樣的事需要打開DevTools、逐元素檢查、復(fù)制selector、整理成文檔。Agent的「觀察」是結(jié)構(gòu)化的、可消費(fèi)的、直接能進(jìn)代碼的。原文里用了「Discovery result」這個(gè)詞,很準(zhǔn)確——這不是瀏覽,是勘探。
我注意到一個(gè)設(shè)計(jì)巧思:Agent被要求同時(shí)抓取「role、label、placeholder」等多維屬性。這意味著它拿到的不是裸DOM,而是帶語義標(biāo)簽的地圖。可訪問性(Accessibility)屬性在這里成了機(jī)器理解的橋梁,一舉兩得。
第三步:抄作業(yè),現(xiàn)有代碼庫(kù)就是最佳教材
Agent接下來做了件很「人類」的事:它去翻了pages/app/和test-data/factories/app/,看前輩們?cè)趺磳懙摹age object怎么分層?Factory用什么格式?Fixture怎么注入?
這一步解決了AI寫代碼的千古難題——風(fēng)格一致性。沒有這一步,Agent生成的代碼會(huì)像外包團(tuán)隊(duì)交的活:能跑,但和現(xiàn)有 codebase 格格不入。有了這一步,它寫的是「我們項(xiàng)目的代碼」,不是「AI生成的代碼」。
原文在這里留了個(gè)懸念,第四步和第五步的內(nèi)容被截?cái)嗔恕5珡囊雅兜男畔⑼茢啵暾牧鞒虘?yīng)該是:生成page object → 創(chuàng)建user factory → 組裝fixture → 編寫smoke test → 覆蓋validation error的回歸測(cè)試。
傳統(tǒng)流程里,這幾步環(huán)環(huán)相扣,一步錯(cuò)步步錯(cuò)。Agent的優(yōu)勢(shì)在于上下文不丟失:它記得CLAUDE.md的規(guī)則、記得剛才探到的DOM結(jié)構(gòu)、記得現(xiàn)有代碼的模式,三股信息流在同一個(gè)上下文窗口里碰撞。
算賬時(shí)刻:4小時(shí) vs 5分鐘,省下的時(shí)間去哪了?
原文列出的「Before agentic QA」清單很扎心:Inspecting the DOM, writing locators, setting up factories, wiring fixtures, writing tests, debugging failures。6個(gè)環(huán)節(jié),每個(gè)都是時(shí)間黑洞。
Agent的輸入只有一句話:"The app has a new user registration page at /register. Create a page object, a user factory, a smoke test, and regression tests for validation errors."
我算了筆賬。假設(shè)一個(gè)迭代周期有20個(gè)類似的功能點(diǎn)需要測(cè)試覆蓋,傳統(tǒng)模式需要80小時(shí)(2人周),Agentic模式需要100分鐘。省下的時(shí)間如果投入探索性測(cè)試、性能壓測(cè)、安全掃描,QA團(tuán)隊(duì)的價(jià)值主張會(huì)完全變樣。
但原文也埋了伏筆:「an agent is only as good as the instructions it follows」。這句話出現(xiàn)在第二篇的結(jié)尾,像一句警告。5分鐘的奇跡背后,是CLAUDE.md的精心編寫、技能文件的領(lǐng)域沉淀、Playwright工具的原子化設(shè)計(jì)。沒有這些基建,Agent就是另一個(gè)會(huì)胡寫的Copilot。
技術(shù)棧拆解:三層架構(gòu)各自扛什么
把五篇文章串起來看,Anthropic搭的是個(gè)三層系統(tǒng):
底層:項(xiàng)目腳手架(Project Scaffold)——給AI設(shè)計(jì)的目錄結(jié)構(gòu),讓Agent知道去哪找什么。
中間層:規(guī)則與技能(CLAUDE.md + Skill Files)——規(guī)則定邊界,技能填內(nèi)容。「用Page Object Model」是規(guī)則,「page object具體怎么寫」是技能。
上層:感知與執(zhí)行(Browser Tool + Agent Loop)——讓Agent能看見應(yīng)用、能操作瀏覽器、能驗(yàn)證結(jié)果。
這個(gè)分層很產(chǎn)品經(jīng)理思維。每一層解決一個(gè)明確的問題,層與層之間接口清晰。換團(tuán)隊(duì)、換技術(shù)棧,可以只換技能文件層,骨架不動(dòng)。
原文有個(gè)類比讓我印象很深:「a good structure only gets you so far if the AI is just a code suggester」。代碼建議器(Code Suggester)和代理(Agent)的區(qū)別,就像導(dǎo)航App和自動(dòng)駕駛——前者告訴你怎么走,后者直接踩油門。
一個(gè)被忽略的細(xì)節(jié):調(diào)試去哪了?
傳統(tǒng)測(cè)試開發(fā)里,寫代碼占3成時(shí)間,調(diào)試占7成。Agentic QA的原文幾乎沒提調(diào)試環(huán)節(jié),這是刻意省略還是真的不需要?
從披露的信息推測(cè),調(diào)試被前置到了「探索應(yīng)用」和「檢查現(xiàn)有模式」兩步。Agent在寫第一行代碼前,已經(jīng)確認(rèn)了DOM結(jié)構(gòu)、確認(rèn)了代碼風(fēng)格、確認(rèn)了規(guī)則邊界。人類調(diào)試是因?yàn)椤覆恢罆?huì)出什么問題」,Agent的確定性來自「先探后寫」。
但這有個(gè)前提:被測(cè)應(yīng)用是穩(wěn)定的。如果注冊(cè)頁(yè)還在頻繁改版,Agent的「勘探」結(jié)果可能很快過期。原文沒覆蓋這個(gè)場(chǎng)景,可能是五篇文章的篇幅限制,也可能是留給讀者的思考題。
另一個(gè)開放問題是驗(yàn)證策略。Agent寫的測(cè)試,誰來驗(yàn)證它測(cè)對(duì)了?原文的標(biāo)題叫「From Prompt to Passing Test」,暗示測(cè)試最終是通過狀態(tài)。但「通過」不等于「有效」,這是QA領(lǐng)域的老生常談。Anthropic是否設(shè)計(jì)了元測(cè)試(Test for the test),第五篇之后的內(nèi)容值得期待。
技術(shù)債的角度也值得玩味。Agent生成的測(cè)試代碼,未來由誰維護(hù)?如果下一個(gè)人類QA接手,他能讀懂AI的寫法嗎?原文強(qiáng)調(diào)Agent會(huì)「抄現(xiàn)有模式」,這降低了認(rèn)知門檻,但長(zhǎng)期看,團(tuán)隊(duì)可能需要建立「AI生成代碼」的審查規(guī)范。
回到開頭那個(gè)4小時(shí)vs5分鐘的對(duì)比。數(shù)字很刺激,但真正的問題或許是:當(dāng)機(jī)械勞動(dòng)被壓縮到極限,QA工程師的專業(yè)價(jià)值該如何重新定義?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.