337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

告別Flaky Tests:AI測試中的評分卡實戰技巧

0
分享至

在AI測試中使用評分卡沒你想的那么糟

誰不喜歡斷言(asserts)呢?



我們有個壞習慣,把"簡單"和"容易"混為一談。在傳統自動化中,定義質量很簡單。它是二元的。要么匹配,要么不匹配。綠色或紅色。

`Assert.AreEqual(expected, actual)`

但在AI領域,"好"不是二元的。它很復雜。有五十種正確說"你好"的方式,也有五十種粗魯說它的方式。作為人類,我們憑直覺處理這種復雜性。我們讀到一個不完美但抓住了主要思想的輸出,會想:"嗯,夠好了。"

但當我們試圖自動化這種感覺時,問題就開始了。自動化討厭"差不多對"。自動化想要精確。而當我們試圖將一個非確定性的、創造性的AI塞進一個僵化的、二元的盒子里時,我們得到的不是質量。相反,我們得到的是不穩定的測試(flaky tests)。



僵化數學的問題

讓我們看一個真實世界的例子:我的API 分析智能體(An API Analysis Agent)。

這是一個設計用來分析API端點的AI智能體。你給它一個提示詞:"分析這個端點,給我3個有效輸入的建議、3個無效輸入的建議,以及3個邊界情況的建議。"

在傳統測試中,你的斷言邏輯大概長這樣:

assert len(suggestions.valid)== 3assert len(suggestions.invalid) == 3assert len(suggestions.edge_cases)== 3

現在,假設 AI 返回了:

● 3個有效建議。

● 3個無效建議。

● 2個邊界情況。

總計:完成了9個請求中的8個。

在傳統自動化的二元世界里,這個測試失敗了。報告變紅。流水線停止。你在Slack上收到告警。你看著失敗說:"蠢 AI。"(當然,別在麥克風附近說,它可能會聽見)。

但等等,看看數據。它給了你 8 個扎實的建議。它找到了有效輸入和無效輸入。它甚至找到了兩個棘手的邊界情況。它只是漏了一個邊界情況。這是一個"失敗"的結果嗎?還是這是一個非常有用的結果,只是沒達到一個arbitrary(隨意設定)的計數?

通過把這個標記為失敗,你在扔掉價值。你在用一個二元的"壞"標簽,掩蓋一個"夠好"的結果。



解決方案:評分卡

為了解決這個問題,我們必須停止測試相等性(Equality),開始測試實用性(Utility)。我們需要從二元斷言轉向評分卡(Scorecard)。

評分卡將"夠好"量化。它將結果分解成加權的概念并把它們加起來。

讓我們把我們之前的API結果翻譯成使用評分卡的方法:

評分標準

● 有效輸入:每個 1 分(最多 3 分)

● 無效輸入:每個 1 分(最多 3 分)

● 邊界情況:每個 1 分(最多 3 分)

通過閾值

● 及格分數:> 6

執行過程:AI 返回了 3 個有效、3 個無效和 2 個邊界情況。

● 分數:3 + 3 + 2 = 8

● 閾值:6

● 結果:通過

突然之間,你的測試套件不是紅的了。它是綠的。為什么?因為產品完成了它的工作。它提供了價值。評分卡反映的是質量的現實,而不僅僅是提示詞的嚴格性。

進化:評分卡是活的代碼

關鍵來了:這個評分卡不是靜態的。今天6分的閾值可能是可接受的。但隨著你的模型改進,或者你優化提示詞工程,你可能會把閾值提高到8。或者你可能給"有效案例"加個乘數,因為它們更重要。

這不是"維護負擔",這是質量工程(Quality Engineering)。你在主動決定"夠好"長什么樣,并把它編碼進你的套件。



結論

測試基于AI的產品或智能體,需要我們在如何看待自動化上進行根本性轉變。我們正在從檢查字符串轉向評分行為。我們正在從"通過/失敗"轉向"夠好"。

如果你還在試圖對LLM 輸出使用`Assert.Equals`,那你將會在 2026 年和你自己的測試套件打架。而且你會輸。

`Assert.Equals`

這種從二元到評分的轉變,正是我們想鼓勵人們開始使用的戰略性思考。這就是我的Captain's Bridge(艦長橋)的用武之地。讓我們停止與我們的工具對抗,開始領導我們的質量——來自戰壕的戰略原則或實踐。

??轉崗軟件測試/野路子技能提升

??想了解更多漲薪技能提升方法

??可以到我的個人號:atstudy-js

即可加入領取 ??????

轉行、入門、提升、需要的各種干貨資料

內含AI測試、 車載測試、AI大模型開發、BI數據分析、銀行測試、游戲測試、AIGC

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
童帝作品已經2000+,這幾位女星大咖居然還沒合作過,不可思議

童帝作品已經2000+,這幾位女星大咖居然還沒合作過,不可思議

不二好片
2026-03-19 21:31:08
以總理稱伊朗戰爭會很快結束

以總理稱伊朗戰爭會很快結束

參考消息
2026-03-20 14:59:04
【科研】顏寧院士發微博拒絕會議,因為“不能一直輸出,必須要有學習和沉淀”

【科研】顏寧院士發微博拒絕會議,因為“不能一直輸出,必須要有學習和沉淀”

新浪財經
2026-03-20 07:08:44
1分鐘別停8次的路虎哥后續來了:上熱搜后警方終于認定為刑事案件

1分鐘別停8次的路虎哥后續來了:上熱搜后警方終于認定為刑事案件

映射生活的身影
2026-03-19 18:13:58
黃金、白銀,直線跳水!美股,集體下跌!美聯儲降息,大消息!霍爾木茲海峽,伊朗表態!

黃金、白銀,直線跳水!美股,集體下跌!美聯儲降息,大消息!霍爾木茲海峽,伊朗表態!

證券時報e公司
2026-03-20 22:39:10
取代宮魯鳴,重掌中國女籃?央視點名,功勛表態,曾執教女籃15年

取代宮魯鳴,重掌中國女籃?央視點名,功勛表態,曾執教女籃15年

萌蘭聊個球
2026-03-20 11:25:15
邵佳一真該帶上他:20歲“中國馬塞洛”單場12次解圍封神!

邵佳一真該帶上他:20歲“中國馬塞洛”單場12次解圍封神!

邱澤云
2026-03-21 00:14:22
8天狂攬3冠震驚乒壇 15歲姜依依橫空出世,中國女乒后浪強到啥程度

8天狂攬3冠震驚乒壇 15歲姜依依橫空出世,中國女乒后浪強到啥程度

蘭亭墨未干
2026-03-21 00:08:59
臺當局緊張壞了,大陸對臺灣同胞做出一項公開承諾!賴清德慌了神

臺當局緊張壞了,大陸對臺灣同胞做出一項公開承諾!賴清德慌了神

小蔣愛嘮嗑
2026-03-21 03:30:35
凌晨,直線大跳水!美國、以色列、伊朗,重磅傳來

凌晨,直線大跳水!美國、以色列、伊朗,重磅傳來

金融界
2026-03-20 08:25:26
蒸發3500億!紫金礦業,跌懵了

蒸發3500億!紫金礦業,跌懵了

財經銳眼
2026-03-20 18:10:22
美宜佳回應假煙事件進展:廣東是此次假煙問題集中區,不存在“自設卷煙廠”,已出臺“四個零容忍”新規,公開承諾假煙“假一賠十”

美宜佳回應假煙事件進展:廣東是此次假煙問題集中區,不存在“自設卷煙廠”,已出臺“四個零容忍”新規,公開承諾假煙“假一賠十”

大風新聞
2026-03-20 20:30:04
馮遠征全說中了!兩會結束才一周,演藝圈變天,不少人飯碗沒了

馮遠征全說中了!兩會結束才一周,演藝圈變天,不少人飯碗沒了

陳意小可愛
2026-03-20 20:07:54
又轟下36+9+7!抱歉庫里:你要從歷史第一變成歷史第二了

又轟下36+9+7!抱歉庫里:你要從歷史第一變成歷史第二了

籃球大視野
2026-03-20 13:03:21
演完《小巷人家》演《好好的時光》,他12歲乖巧清秀,神似陳昊宇

演完《小巷人家》演《好好的時光》,他12歲乖巧清秀,神似陳昊宇

娛君墜星河
2026-03-20 17:55:06
以色列襲擊已致黎巴嫩上千人死亡

以色列襲擊已致黎巴嫩上千人死亡

每日經濟新聞
2026-03-20 07:44:59
任重夫妻曬約會日常!蹲路邊吃小面接地氣,孫驍驍不適應但仍陪著

任重夫妻曬約會日常!蹲路邊吃小面接地氣,孫驍驍不適應但仍陪著

命運天注定
2026-03-20 17:53:14
分享一些看似不起眼但關鍵能保命的冷知識!網友:脖子不能亂刮

分享一些看似不起眼但關鍵能保命的冷知識!網友:脖子不能亂刮

夜深愛雜談
2026-03-19 19:56:21
李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

嘮叨說歷史
2026-03-17 10:31:04
中年女人主動“獻身”,往往只有這兩個目的,很現實

中年女人主動“獻身”,往往只有這兩個目的,很現實

周哥一影視
2026-03-13 17:24:31
2026-03-21 05:24:49
51Testing軟件測試網 incentive-icons
51Testing軟件測試網
中國軟件測試人的精神家園
1541文章數 13254關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

頭條要聞

英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

游戲
本地
手機
旅游
軍事航空

Xbox新AI游戲助手翻車 玩家媒體紛紛表示:令人失望

本地新聞

春色滿城關不?。B興春日頂流,這片櫻花海藏不住了

手機要聞

折疊iPhone曝12月發貨,蘋果Plus機型或重啟

旅游要聞

游客為玲娜貝兒制作十多套裝扮,上海迪士尼“10歲生日慶典”啟幕

軍事要聞

特朗普會晤高市早苗 把美國襲擊伊朗比作偷襲珍珠港

無障礙瀏覽 進入關懷版