![]()
密集圖像描述這門技術,有點像讓你朋友看圖說話——只不過普通人說"桌上有水果",高手得說出"木質餐桌左前方的青蘋果帶褐色斑點,旁邊玻璃杯有半杯橙汁"。越細越難,訓練成本也越離譜。
![]()
蘋果和威斯康星大學剛放了個新框架 RubiCap,核心思路挺有意思:與其砸錢請人標注,不如讓 AI 自己教自己。具體玩法分三步——先用 GPT-5、Gemini 2.5 Pro 給 5 萬張圖寫一堆候選描述,再讓 Gemini 總結這些描述的共識和漏洞,提煉成評分標準,最后讓 Qwen2.5 當裁判按標準打分。
![]()
這套"自產自評"的機制,相當于給模型配了個實時糾錯的教練。最終練出的 70 億參數模型,盲測排名和幻覺錯誤率都壓過了 720 億參數的大家伙。更意外的是 30 億參數的迷你版,部分測試里居然反超了自家大哥。
這事給行業提了個醒:參數競賽未必是唯一解,訓練方法的精細度可能才是性價比更高的杠桿。
論文已掛 arXiv,代碼和權重暫未開源——按蘋果近年的節奏,估計得等 WWDC 看有沒有下文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.