開源復(fù)刻O3！Thyme實現(xiàn)自主編碼的多模態(tài)交互新范式

2025-11-09 18:06:37　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

在Openai 發(fā)布o3后，think with image功能得到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。Kwai Keye團隊提出Thyme (Think Beyond Images)的新范式，并圍繞它構(gòu)建了一整套技術(shù)方案。旨在突破現(xiàn)有方法的限制，賦予開源模型一種更強大、更自主、功能更全面的“超越圖像思考”的能力。其主要貢獻可以概括為以下幾點：

提出了一個全新的多模態(tài)交互范式Thyme：

核心思想：讓多模態(tài)大模型不再局限于被動地“看圖”，而是能夠主動地通過生成并執(zhí)行代碼，來調(diào)用各種工具完成復(fù)雜的圖像處理和數(shù)學(xué)計算。

功能豐富：模型可以即時進行裁剪、旋轉(zhuǎn)、縮放、對比度增強等多種圖像操作，還能處理復(fù)雜的數(shù)學(xué)問題。

高度自主：模型能自主判斷何時需要使用工具、使用何種工具，并動態(tài)生成代碼來執(zhí)行，無需人工為特定任務(wù)進行干預(yù)。

設(shè)計了一套高效的兩階段訓(xùn)練策略 SFT + RL：

監(jiān)督微調(diào) (SFT) 階段：利用精心構(gòu)建的約 50 萬條高質(zhì)量樣本數(shù)據(jù)集，快速教會模型生成代碼來執(zhí)行各種操作。這個階段僅需約 200 GPU 小時，性價比極高。

強化學(xué)習(xí) (RL) 階段：在 SFT 的基礎(chǔ)上，通過 RL 進一步優(yōu)化模型的決策能力。

構(gòu)建了高質(zhì)量 RL 數(shù)據(jù)集：為了解決 RL 階段的挑戰(zhàn)，研究者還手動收集和標注了 1 萬張高分辨率、高難度的圖像問答對，以增強模型在復(fù)雜場景下的感知能力。

提出了創(chuàng)新的RL算法GRPO-ATS：該算法能為文本生成和代碼生成設(shè)置不同的采樣溫度（temperature）。具體來說，為文本使用較高的溫度以鼓勵探索和創(chuàng)造性，為代碼使用極低的溫度（0.0）以確保生成代碼的精確性和可執(zhí)行性，巧妙地平衡了推理的靈活性和代碼的穩(wěn)定性。

構(gòu)建并開源了完整的配套資源：

高質(zhì)量數(shù)據(jù)集：開源了用于 SFT 和 RL 階段的全部數(shù)據(jù)集，包括超過 400 萬的原始數(shù)據(jù)源和精心篩選標注的數(shù)據(jù)。

安全的沙箱環(huán)境：開發(fā)了一個可以安全執(zhí)行模型生成的代碼并返回結(jié)果的沙箱。這個沙箱還簡化了代碼生成的難度，能自動處理格式、變量定義等問題，提高了代碼的可用性。

完整的代碼庫：將所有訓(xùn)練代碼、模型和工具鏈全部開源，旨在推動整個社區(qū)在該方向上的發(fā)展和應(yīng)用。

總言，Thyme 通過賦予模型“代碼生成與執(zhí)行”的能力，極大地擴展了多模態(tài)模型的工具使用范圍和自主決策水平，并在近 20 個基準測試中取得了顯著且穩(wěn)定的性能提升，尤其在處理高分辨率圖像和復(fù)雜推理任務(wù)上表現(xiàn)出色。模型已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/luxy/Thyme-SFT/file

01.

Thyme推理樣本展示

裁剪+放大

Thyme首先評估了標志的大小和距離，判斷出裁剪并放大對應(yīng)區(qū)域可以提高可見性。接著，它編寫代碼來裁剪并放大包含標志的區(qū)域。最后準確地定位了標志的位置，成功地裁剪并放大了該區(qū)域，并正確地回答了問題。

對比度增強

在OCR任務(wù)中，Thyme會適時的增強圖像對比度，讓需要識別的文字更加清晰。

圖像旋轉(zhuǎn)

Thyme意識到輸入圖像的方向不正確，因此它使用Python代碼執(zhí)行旋轉(zhuǎn)操作來調(diào)整輸入圖像的角度，最后進行讀取。

復(fù)雜計算

Thyme可以將復(fù)雜計算操作，轉(zhuǎn)化為代碼，避免模型直接預(yù)測計算結(jié)果。

02.

Thyme工作流程

Thyme整體流程主要由兩個組件構(gòu)成：模型和沙盒。

1、模型接收用戶輸入問題，輸出推理思路。
2、模型判斷問題復(fù)雜度，決定是否生成Python代碼執(zhí)行圖像處理或計算任務(wù)。
3、若無需代碼（簡單問題或先前代碼已解決），直接輸出答案。
4、生成代碼后，交付給外部沙箱安全執(zhí)行，沙箱負責(zé)格式校驗、參數(shù)調(diào)整、錯誤修正等處理。
5、沙箱返回執(zhí)行結(jié)果（圖像或數(shù)值），模型基于結(jié)果繼續(xù)推理，多輪交互直至輸出最終答案。

在這里作者強調(diào)了MLLM的外部沙盒需要做的一些事情，主要包括一些自動糾錯機制，來盡量保證代碼的可用性。

使用autopep8模塊格式化代碼，統(tǒng)一縮進和風(fēng)格。
利用ast解析代碼變量，自動調(diào)整圖像裁剪坐標邊界，避免越界錯誤。
預(yù)置必要變量及模塊導(dǎo)入（如cv2、image_path），保證環(huán)境一致。
記錄代碼分段變量依賴，解決多段代碼執(zhí)行時上下文丟失問題。

03.

Thyme-SFT

訓(xùn)練數(shù)據(jù)

首先，從現(xiàn)有數(shù)據(jù)集中采集樣本，并根據(jù)目標函數(shù)（如裁剪、旋轉(zhuǎn)等）構(gòu)建提示。模型根據(jù)提示生成思考過程和對應(yīng)代碼。代碼隨后在沙盒環(huán)境中執(zhí)行，以過濾掉運行不正常的樣本。剩余樣本由另一個 MLLM 進行審核，驗證代碼執(zhí)行結(jié)果是否與思考過程一致，并有效回答問題，從而剔除無效代碼樣本。最后，進行人工審核以移除低質(zhì)量樣本，確保冷啟動數(shù)據(jù)集的質(zhì)量。

SFT主要構(gòu)造了三類任務(wù)：

無需代碼直接答復(fù)：簡單問題直接回答，訓(xùn)練模型判定是否需要代碼生成。
基于代碼的圖像操作和計算：包含裁剪、旋轉(zhuǎn)、對比度增強、數(shù)學(xué)計算等。
多輪交互數(shù)據(jù)：針對圖像操作失敗的錯誤修正、連續(xù)增強等多輪迭代任務(wù)。

對代碼生成樣本進行嚴格執(zhí)行與語義審核，剔除不執(zhí)行或執(zhí)行結(jié)果錯誤的代碼片段，提高訓(xùn)練樣本有效性。手工構(gòu)建多輪對話數(shù)據(jù)，教會模型基于上一輪代碼執(zhí)行結(jié)果調(diào)整策略，具備錯誤糾正能力。

訓(xùn)練策略

訓(xùn)練過程模型基于輸入圖片(I)和問題(Q)生成推理流程(T)及可選代碼(C)，通過沙箱執(zhí)行代碼獲得結(jié)果(S)，多輪循環(huán)迭代直到生成最終答案(a)：

使用了一些SFT策略保證多種功能能被成功激活：

強制模型僅學(xué)習(xí)輸出最終一輪的有效推理和代碼，早期輸出輪次內(nèi)容被遮蔽，避免模型過度依賴第二輪糾正。
訓(xùn)練時排除沙箱執(zhí)行輸出標簽，防止模型直接模仿沙箱結(jié)果，提高推理過程質(zhì)量。
對數(shù)學(xué)計算數(shù)據(jù)采用退火訓(xùn)練策略：初始階段訓(xùn)練圖像操作數(shù)據(jù)，再用較低學(xué)習(xí)率微調(diào)數(shù)學(xué)推理數(shù)據(jù)，避免數(shù)據(jù)不均衡問題。

04.

Thyme-RL

數(shù)據(jù)構(gòu)造

除了從開源數(shù)據(jù)進行搜集和篩選外，額外補充了10k的人工標注數(shù)據(jù)，標注的任務(wù)包括OCR識別、屬性識別、數(shù)量識別等多種任務(wù)，這些任務(wù)要求模型能夠從高分辨率圖像中提取細節(jié)信息并正確回答相關(guān)問題，增強感知難度。

訓(xùn)練策略 GRPO-ATS

采用on policy的GRPO。獎勵函數(shù)包括：

結(jié)果獎勵：比較模型輸出與地面真值答案的匹配程度，確保模型輸出的正確性。
一致性獎勵：檢查推理過程是否與最終答案一致，以確保推理步驟的合理性。
格式獎勵確保輸出符合嚴格的結(jié)構(gòu)規(guī)范，增強推理過程的可解釋性。

適應(yīng)性溫度采樣

溫度調(diào)整：對于代碼生成任務(wù)，如圖像處理和計算任務(wù)，使用低溫度（τ = 0）進行采樣，以確保代碼生成過程的準確性和一致性。對于推理過程，使用較高的溫度（τ = 1）來鼓勵模型探索更多的解決方案。

這一策略有效避免了模型在生成代碼時的過度多樣化問題，提高了代碼生成的穩(wěn)定性，并使得推理過程更加靈活多樣。

采樣優(yōu)化：為了減少計算資源浪費，運用Rabin-Karp滾動哈希算法檢測過多重復(fù)內(nèi)容；當(dāng)重復(fù)子串長度超過輸出長度50%，立即判定為重復(fù)并提前終止當(dāng)前軌跡采樣，有效避免資源浪費。

在訓(xùn)練中還強制限制了最大對話輪次，避免模型陷入無意義的循環(huán)，從而提高了訓(xùn)練效率。

圖：GRPO-ATS 采樣流程

05.

實驗效果

感知，推理，通用任務(wù)全面提升

訓(xùn)練基于32塊NVIDIA H800 GPU，強化學(xué)習(xí)階段耗時超1200 GPU小時。

在多個基準任務(wù)上，Thyme表現(xiàn)出相較于其他多模態(tài)模型的優(yōu)勢，尤其是在感知任務(wù)上，Thyme即使在與更大規(guī)模的模型Qwen-2.5-VL-32B對比時，也依然顯示出了顯著的優(yōu)勢。這表明，僅僅通過增加模型的規(guī)模并不能有效解決感知任務(wù)中的挑戰(zhàn)，相反，Thyme在測試時的擴展策略對感知任務(wù)十分有效。

在推理任務(wù)中，通過將復(fù)雜的計算轉(zhuǎn)化為可執(zhí)行代碼，Thyme在推理能力上取得了顯著的提升。然而，在這一領(lǐng)域，模型規(guī)模的擴展帶來的優(yōu)勢更為顯著，表明推理和邏輯推理能力主要依賴于模型本身的知識量。

由于感知與推理能力的提升，Thyme在許多通用任務(wù)中取得了顯著的進展，尤其是在減少幻覺現(xiàn)象（hallucination）方面。

深入探討感知任務(wù)

以MME-RealWorld為例，它包括許多現(xiàn)實場景中的高分辨率感知任務(wù)。表4展示了Thyme與基線模型在不同任務(wù)上的表現(xiàn)。

可以看到，對于基線模型已表現(xiàn)良好的任務(wù)，如OCR、圖表和表格（準確率超過60%，甚至接近90%），Thyme的提升相對較小。然而，對于更困難的任務(wù)，如監(jiān)控與自動駕駛，在這些任務(wù)上Qwen-2.5-VL-7B的感知能力較弱時，Thyme的感知和推理任務(wù)的提升超過了25%，尤其是在推理任務(wù)中，提升更為顯著。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.