![]()
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!
在Openai 發(fā)布o3后,think with image功能得到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。Kwai Keye團隊提出Thyme (Think Beyond Images)的新范式,并圍繞它構(gòu)建了一整套技術(shù)方案。旨在突破現(xiàn)有方法的限制,賦予開源模型一種更強大、更自主、功能更全面的“超越圖像思考”的能力。其主要貢獻可以概括為以下幾點:
提出了一個全新的多模態(tài)交互范式Thyme:
核心思想:讓多模態(tài)大模型不再局限于被動地“看圖”,而是能夠主動地通過生成并執(zhí)行代碼,來調(diào)用各種工具完成復(fù)雜的圖像處理和數(shù)學(xué)計算。
功能豐富:模型可以即時進行裁剪、旋轉(zhuǎn)、縮放、對比度增強等多種圖像操作,還能處理復(fù)雜的數(shù)學(xué)問題。
高度自主:模型能自主判斷何時需要使用工具、使用何種工具,并動態(tài)生成代碼來執(zhí)行,無需人工為特定任務(wù)進行干預(yù)。
設(shè)計了一套高效的兩階段訓(xùn)練策略 SFT + RL:
監(jiān)督微調(diào) (SFT) 階段:利用精心構(gòu)建的約 50 萬條高質(zhì)量樣本數(shù)據(jù)集,快速教會模型生成代碼來執(zhí)行各種操作。這個階段僅需約 200 GPU 小時,性價比極高。
強化學(xué)習(xí) (RL) 階段:在 SFT 的基礎(chǔ)上,通過 RL 進一步優(yōu)化模型的決策能力。
構(gòu)建了高質(zhì)量 RL 數(shù)據(jù)集:為了解決 RL 階段的挑戰(zhàn),研究者還手動收集和標注了 1 萬張高分辨率、高難度的圖像問答對,以增強模型在復(fù)雜場景下的感知能力。
提出了創(chuàng)新的RL算法GRPO-ATS:該算法能為文本生成和代碼生成設(shè)置不同的采樣溫度(temperature)。具體來說,為文本使用較高的溫度以鼓勵探索和創(chuàng)造性,為代碼使用極低的溫度(0.0)以確保生成代碼的精確性和可執(zhí)行性,巧妙地平衡了推理的靈活性和代碼的穩(wěn)定性。
構(gòu)建并開源了完整的配套資源:
高質(zhì)量數(shù)據(jù)集:開源了用于 SFT 和 RL 階段的全部數(shù)據(jù)集,包括超過 400 萬的原始數(shù)據(jù)源和精心篩選標注的數(shù)據(jù)。
安全的沙箱環(huán)境:開發(fā)了一個可以安全執(zhí)行模型生成的代碼并返回結(jié)果的沙箱。這個沙箱還簡化了代碼生成的難度,能自動處理格式、變量定義等問題,提高了代碼的可用性。
完整的代碼庫:將所有訓(xùn)練代碼、模型和工具鏈全部開源,旨在推動整個社區(qū)在該方向上的發(fā)展和應(yīng)用。
![]()
總言,Thyme 通過賦予模型“代碼生成與執(zhí)行”的能力,極大地擴展了多模態(tài)模型的工具使用范圍和自主決策水平,并在近 20 個基準測試中取得了顯著且穩(wěn)定的性能提升,尤其在處理高分辨率圖像和復(fù)雜推理任務(wù)上表現(xiàn)出色。模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。
![]()
模型地址
https://wisemodel.cn/models/luxy/Thyme-SFT/file
01.
Thyme推理樣本展示
![]()
裁剪+放大
Thyme首先評估了標志的大小和距離,判斷出裁剪并放大對應(yīng)區(qū)域可以提高可見性。接著,它編寫代碼來裁剪并放大包含標志的區(qū)域。最后準確地定位了標志的位置,成功地裁剪并放大了該區(qū)域,并正確地回答了問題。
![]()
![]()
對比度增強
在OCR任務(wù)中,Thyme會適時的增強圖像對比度,讓需要識別的文字更加清晰。
![]()
![]()
圖像旋轉(zhuǎn)
Thyme意識到輸入圖像的方向不正確,因此它使用Python代碼執(zhí)行旋轉(zhuǎn)操作來調(diào)整輸入圖像的角度,最后進行讀取。
![]()
![]()
復(fù)雜計算
Thyme可以將復(fù)雜計算操作,轉(zhuǎn)化為代碼,避免模型直接預(yù)測計算結(jié)果。
![]()
02.
Thyme工作流程
Thyme整體流程主要由兩個組件構(gòu)成:模型和沙盒。
1、模型接收用戶輸入問題,輸出推理思路。
2、模型判斷問題復(fù)雜度,決定是否生成Python代碼執(zhí)行圖像處理或計算任務(wù)。
3、若無需代碼(簡單問題或先前代碼已解決),直接輸出答案。
4、生成代碼后,交付給外部沙箱安全執(zhí)行,沙箱負責(zé)格式校驗、參數(shù)調(diào)整、錯誤修正等處理。
5、沙箱返回執(zhí)行結(jié)果(圖像或數(shù)值),模型基于結(jié)果繼續(xù)推理,多輪交互直至輸出最終答案。
![]()
在這里作者強調(diào)了MLLM的外部沙盒需要做的一些事情,主要包括一些自動糾錯機制,來盡量保證代碼的可用性。
使用autopep8模塊格式化代碼,統(tǒng)一縮進和風(fēng)格。
利用ast解析代碼變量,自動調(diào)整圖像裁剪坐標邊界,避免越界錯誤。
預(yù)置必要變量及模塊導(dǎo)入(如cv2、image_path),保證環(huán)境一致。
記錄代碼分段變量依賴,解決多段代碼執(zhí)行時上下文丟失問題。
03.
Thyme-SFT
![]()
訓(xùn)練數(shù)據(jù)
首先,從現(xiàn)有數(shù)據(jù)集中采集樣本,并根據(jù)目標函數(shù)(如裁剪、旋轉(zhuǎn)等)構(gòu)建提示。模型根據(jù)提示生成思考過程和對應(yīng)代碼。代碼隨后在沙盒環(huán)境中執(zhí)行,以過濾掉運行不正常的樣本。剩余樣本由另一個 MLLM 進行審核,驗證代碼執(zhí)行結(jié)果是否與思考過程一致,并有效回答問題,從而剔除無效代碼樣本。最后,進行人工審核以移除低質(zhì)量樣本,確保冷啟動數(shù)據(jù)集的質(zhì)量。
![]()
SFT主要構(gòu)造了三類任務(wù):
- 無需代碼直接答復(fù):簡單問題直接回答,訓(xùn)練模型判定是否需要代碼生成。
- 基于代碼的圖像操作和計算:包含裁剪、旋轉(zhuǎn)、對比度增強、數(shù)學(xué)計算等。
- 多輪交互數(shù)據(jù):針對圖像操作失敗的錯誤修正、連續(xù)增強等多輪迭代任務(wù)。
對代碼生成樣本進行嚴格執(zhí)行與語義審核,剔除不執(zhí)行或執(zhí)行結(jié)果錯誤的代碼片段,提高訓(xùn)練樣本有效性。手工構(gòu)建多輪對話數(shù)據(jù),教會模型基于上一輪代碼執(zhí)行結(jié)果調(diào)整策略,具備錯誤糾正能力。
![]()
![]()
訓(xùn)練策略
訓(xùn)練過程模型基于輸入圖片(I)和問題(Q)生成推理流程(T)及可選代碼(C),通過沙箱執(zhí)行代碼獲得結(jié)果(S),多輪循環(huán)迭代直到生成最終答案(a):
使用了一些SFT策略保證多種功能能被成功激活:
強制模型僅學(xué)習(xí)輸出最終一輪的有效推理和代碼,早期輸出輪次內(nèi)容被遮蔽,避免模型過度依賴第二輪糾正。
訓(xùn)練時排除沙箱執(zhí)行輸出標簽,防止模型直接模仿沙箱結(jié)果,提高推理過程質(zhì)量。
對數(shù)學(xué)計算數(shù)據(jù)采用退火訓(xùn)練策略:初始階段訓(xùn)練圖像操作數(shù)據(jù),再用較低學(xué)習(xí)率微調(diào)數(shù)學(xué)推理數(shù)據(jù),避免數(shù)據(jù)不均衡問題。
04.
Thyme-RL
![]()
數(shù)據(jù)構(gòu)造
除了從開源數(shù)據(jù)進行搜集和篩選外,額外補充了10k的人工標注數(shù)據(jù),標注的任務(wù)包括OCR識別、屬性識別、數(shù)量識別等多種任務(wù),這些任務(wù)要求模型能夠從高分辨率圖像中提取細節(jié)信息并正確回答相關(guān)問題,增強感知難度。
![]()
![]()
訓(xùn)練策略 GRPO-ATS
采用on policy的GRPO。獎勵函數(shù)包括:
- 結(jié)果獎勵:比較模型輸出與地面真值答案的匹配程度,確保模型輸出的正確性。
- 一致性獎勵:檢查推理過程是否與最終答案一致,以確保推理步驟的合理性。
- 格式獎勵確保輸出符合嚴格的結(jié)構(gòu)規(guī)范,增強推理過程的可解釋性。
![]()
適應(yīng)性溫度采樣
溫度調(diào)整:對于代碼生成任務(wù),如圖像處理和計算任務(wù),使用低溫度(τ = 0)進行采樣,以確保代碼生成過程的準確性和一致性。對于推理過程,使用較高的溫度(τ = 1)來鼓勵模型探索更多的解決方案。
這一策略有效避免了模型在生成代碼時的過度多樣化問題,提高了代碼生成的穩(wěn)定性,并使得推理過程更加靈活多樣。
采樣優(yōu)化:為了減少計算資源浪費,運用Rabin-Karp滾動哈希算法檢測過多重復(fù)內(nèi)容;當(dāng)重復(fù)子串長度超過輸出長度50%,立即判定為重復(fù)并提前終止當(dāng)前軌跡采樣,有效避免資源浪費。
在訓(xùn)練中還強制限制了最大對話輪次,避免模型陷入無意義的循環(huán),從而提高了訓(xùn)練效率。
![]()
圖 :GRPO-ATS 采樣流程
05.
實驗效果
![]()
感知,推理,通用任務(wù)全面提升
訓(xùn)練基于32塊NVIDIA H800 GPU,強化學(xué)習(xí)階段耗時超1200 GPU小時。
![]()
在多個基準任務(wù)上,Thyme表現(xiàn)出相較于其他多模態(tài)模型的優(yōu)勢,尤其是在感知任務(wù)上,Thyme即使在與更大規(guī)模的模型Qwen-2.5-VL-32B對比時,也依然顯示出了顯著的優(yōu)勢。這表明,僅僅通過增加模型的規(guī)模并不能有效解決感知任務(wù)中的挑戰(zhàn),相反,Thyme在測試時的擴展策略對感知任務(wù)十分有效。
在推理任務(wù)中,通過將復(fù)雜的計算轉(zhuǎn)化為可執(zhí)行代碼,Thyme在推理能力上取得了顯著的提升。然而,在這一領(lǐng)域,模型規(guī)模的擴展帶來的優(yōu)勢更為顯著,表明推理和邏輯推理能力主要依賴于模型本身的知識量。
由于感知與推理能力的提升,Thyme在許多通用任務(wù)中取得了顯著的進展,尤其是在減少幻覺現(xiàn)象(hallucination)方面。
![]()
深入探討感知任務(wù)
以MME-RealWorld為例,它包括許多現(xiàn)實場景中的高分辨率感知任務(wù)。表4展示了Thyme與基線模型在不同任務(wù)上的表現(xiàn)。
可以看到,對于基線模型已表現(xiàn)良好的任務(wù),如OCR、圖表和表格(準確率超過60%,甚至接近90%),Thyme的提升相對較小。然而,對于更困難的任務(wù),如監(jiān)控與自動駕駛,在這些任務(wù)上Qwen-2.5-VL-7B的感知能力較弱時,Thyme的感知和推理任務(wù)的提升超過了25%,尤其是在推理任務(wù)中,提升更為顯著。
![]()
----- END -----
![]()
wisemodel相關(guān):
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.