當地時間3月7日,OpenClaw 創始人 Peter Steinberger 在平臺X上分享龍蝦基準測試排行榜。PinchBench 測試了32款主流大模型,從成功率、速度、費用三個維度,測試哪個模型最適合養龍蝦。
排行榜顯示,谷歌(GOOGL.US)的Gemini 3 Flash Preview 以95.1% 的成功率奪冠,其次是國產模型 MiniMax M2.1,成功率93.6%,戰勝 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一眾國際大模型。
Kimi K2.5則以93.4%的成功率緊隨其后,位居第三。至此,國產雙雄直接占據了 TOP3的兩個席位。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.