337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源復(fù)刻O3!Thyme實現(xiàn)自主編碼的多模態(tài)交互新范式

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

在Openai 發(fā)布o3后,think with image功能得到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。Kwai Keye團隊提出Thyme (Think Beyond Images)的新范式,并圍繞它構(gòu)建了一整套技術(shù)方案。旨在突破現(xiàn)有方法的限制,賦予開源模型一種更強大、更自主、功能更全面的“超越圖像思考”的能力。其主要貢獻可以概括為以下幾點:

提出了一個全新的多模態(tài)交互范式Thyme:

核心思想:讓多模態(tài)大模型不再局限于被動地“看圖”,而是能夠主動地通過生成并執(zhí)行代碼,來調(diào)用各種工具完成復(fù)雜的圖像處理和數(shù)學(xué)計算。

功能豐富:模型可以即時進行裁剪、旋轉(zhuǎn)、縮放、對比度增強等多種圖像操作,還能處理復(fù)雜的數(shù)學(xué)問題。

高度自主:模型能自主判斷何時需要使用工具、使用何種工具,并動態(tài)生成代碼來執(zhí)行,無需人工為特定任務(wù)進行干預(yù)。

設(shè)計了一套高效的兩階段訓(xùn)練策略 SFT + RL:

監(jiān)督微調(diào) (SFT) 階段:利用精心構(gòu)建的約 50 萬條高質(zhì)量樣本數(shù)據(jù)集,快速教會模型生成代碼來執(zhí)行各種操作。這個階段僅需約 200 GPU 小時,性價比極高。

強化學(xué)習(xí) (RL) 階段:在 SFT 的基礎(chǔ)上,通過 RL 進一步優(yōu)化模型的決策能力。

構(gòu)建了高質(zhì)量 RL 數(shù)據(jù)集:為了解決 RL 階段的挑戰(zhàn),研究者還手動收集和標注了 1 萬張高分辨率、高難度的圖像問答對,以增強模型在復(fù)雜場景下的感知能力。

提出了創(chuàng)新的RL算法GRPO-ATS:該算法能為文本生成代碼生成設(shè)置不同的采樣溫度(temperature)。具體來說,為文本使用較高的溫度以鼓勵探索和創(chuàng)造性,為代碼使用極低的溫度(0.0)以確保生成代碼的精確性和可執(zhí)行性,巧妙地平衡了推理的靈活性和代碼的穩(wěn)定性。

構(gòu)建并開源了完整的配套資源:

高質(zhì)量數(shù)據(jù)集:開源了用于 SFT 和 RL 階段的全部數(shù)據(jù)集,包括超過 400 萬的原始數(shù)據(jù)源和精心篩選標注的數(shù)據(jù)。

安全的沙箱環(huán)境:開發(fā)了一個可以安全執(zhí)行模型生成的代碼并返回結(jié)果的沙箱。這個沙箱還簡化了代碼生成的難度,能自動處理格式、變量定義等問題,提高了代碼的可用性。

完整的代碼庫:將所有訓(xùn)練代碼、模型和工具鏈全部開源,旨在推動整個社區(qū)在該方向上的發(fā)展和應(yīng)用。


總言,Thyme 通過賦予模型“代碼生成與執(zhí)行”的能力,極大地擴展了多模態(tài)模型的工具使用范圍和自主決策水平,并在近 20 個基準測試中取得了顯著且穩(wěn)定的性能提升,尤其在處理高分辨率圖像和復(fù)雜推理任務(wù)上表現(xiàn)出色。模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/luxy/Thyme-SFT/file

01.

Thyme推理樣本展示


裁剪+放大

Thyme首先評估了標志的大小和距離,判斷出裁剪并放大對應(yīng)區(qū)域可以提高可見性。接著,它編寫代碼來裁剪并放大包含標志的區(qū)域。最后準確地定位了標志的位置,成功地裁剪并放大了該區(qū)域,并正確地回答了問題。



對比度增強

在OCR任務(wù)中,Thyme會適時的增強圖像對比度,讓需要識別的文字更加清晰。



圖像旋轉(zhuǎn)

Thyme意識到輸入圖像的方向不正確,因此它使用Python代碼執(zhí)行旋轉(zhuǎn)操作來調(diào)整輸入圖像的角度,最后進行讀取。



復(fù)雜計算

Thyme可以將復(fù)雜計算操作,轉(zhuǎn)化為代碼,避免模型直接預(yù)測計算結(jié)果。


02.

Thyme工作流程

Thyme整體流程主要由兩個組件構(gòu)成:模型和沙盒。

1、模型接收用戶輸入問題,輸出推理思路。
2、模型判斷問題復(fù)雜度,決定是否生成Python代碼執(zhí)行圖像處理或計算任務(wù)。
3、若無需代碼(簡單問題或先前代碼已解決),直接輸出答案。
4、生成代碼后,交付給外部沙箱安全執(zhí)行,沙箱負責(zé)格式校驗、參數(shù)調(diào)整、錯誤修正等處理。
5、沙箱返回執(zhí)行結(jié)果(圖像或數(shù)值),模型基于結(jié)果繼續(xù)推理,多輪交互直至輸出最終答案。


在這里作者強調(diào)了MLLM的外部沙盒需要做的一些事情,主要包括一些自動糾錯機制,來盡量保證代碼的可用性。

  • 使用autopep8模塊格式化代碼,統(tǒng)一縮進和風(fēng)格。

  • 利用ast解析代碼變量,自動調(diào)整圖像裁剪坐標邊界,避免越界錯誤。

  • 預(yù)置必要變量及模塊導(dǎo)入(如cv2、image_path),保證環(huán)境一致。

  • 記錄代碼分段變量依賴,解決多段代碼執(zhí)行時上下文丟失問題。

03.

Thyme-SFT


訓(xùn)練數(shù)據(jù)

首先,從現(xiàn)有數(shù)據(jù)集中采集樣本,并根據(jù)目標函數(shù)(如裁剪、旋轉(zhuǎn)等)構(gòu)建提示。模型根據(jù)提示生成思考過程和對應(yīng)代碼。代碼隨后在沙盒環(huán)境中執(zhí)行,以過濾掉運行不正常的樣本。剩余樣本由另一個 MLLM 進行審核,驗證代碼執(zhí)行結(jié)果是否與思考過程一致,并有效回答問題,從而剔除無效代碼樣本。最后,進行人工審核以移除低質(zhì)量樣本,確保冷啟動數(shù)據(jù)集的質(zhì)量。


SFT主要構(gòu)造了三類任務(wù):

  • 無需代碼直接答復(fù):簡單問題直接回答,訓(xùn)練模型判定是否需要代碼生成。
  • 基于代碼的圖像操作和計算:包含裁剪、旋轉(zhuǎn)、對比度增強、數(shù)學(xué)計算等。
  • 多輪交互數(shù)據(jù):針對圖像操作失敗的錯誤修正、連續(xù)增強等多輪迭代任務(wù)。

對代碼生成樣本進行嚴格執(zhí)行與語義審核,剔除不執(zhí)行或執(zhí)行結(jié)果錯誤的代碼片段,提高訓(xùn)練樣本有效性。手工構(gòu)建多輪對話數(shù)據(jù),教會模型基于上一輪代碼執(zhí)行結(jié)果調(diào)整策略,具備錯誤糾正能力。



訓(xùn)練策略

訓(xùn)練過程模型基于輸入圖片(I)和問題(Q)生成推理流程(T)及可選代碼(C),通過沙箱執(zhí)行代碼獲得結(jié)果(S),多輪循環(huán)迭代直到生成最終答案(a):

使用了一些SFT策略保證多種功能能被成功激活:

  • 強制模型僅學(xué)習(xí)輸出最終一輪的有效推理和代碼,早期輸出輪次內(nèi)容被遮蔽,避免模型過度依賴第二輪糾正。

  • 訓(xùn)練時排除沙箱執(zhí)行輸出標簽,防止模型直接模仿沙箱結(jié)果,提高推理過程質(zhì)量。

  • 對數(shù)學(xué)計算數(shù)據(jù)采用退火訓(xùn)練策略:初始階段訓(xùn)練圖像操作數(shù)據(jù),再用較低學(xué)習(xí)率微調(diào)數(shù)學(xué)推理數(shù)據(jù),避免數(shù)據(jù)不均衡問題。

04.

Thyme-RL


數(shù)據(jù)構(gòu)造

除了從開源數(shù)據(jù)進行搜集和篩選外,額外補充了10k的人工標注數(shù)據(jù),標注的任務(wù)包括OCR識別、屬性識別、數(shù)量識別等多種任務(wù),這些任務(wù)要求模型能夠從高分辨率圖像中提取細節(jié)信息并正確回答相關(guān)問題,增強感知難度。



訓(xùn)練策略 GRPO-ATS

采用on policy的GRPO。獎勵函數(shù)包括:

  • 結(jié)果獎勵:比較模型輸出與地面真值答案的匹配程度,確保模型輸出的正確性。
  • 一致性獎勵:檢查推理過程是否與最終答案一致,以確保推理步驟的合理性。
  • 格式獎勵確保輸出符合嚴格的結(jié)構(gòu)規(guī)范,增強推理過程的可解釋性。


適應(yīng)性溫度采樣

溫度調(diào)整:對于代碼生成任務(wù),如圖像處理和計算任務(wù),使用低溫度(τ = 0)進行采樣,以確保代碼生成過程的準確性和一致性。對于推理過程,使用較高的溫度(τ = 1)來鼓勵模型探索更多的解決方案。

這一策略有效避免了模型在生成代碼時的過度多樣化問題,提高了代碼生成的穩(wěn)定性,并使得推理過程更加靈活多樣。

采樣優(yōu)化:為了減少計算資源浪費,運用Rabin-Karp滾動哈希算法檢測過多重復(fù)內(nèi)容;當(dāng)重復(fù)子串長度超過輸出長度50%,立即判定為重復(fù)并提前終止當(dāng)前軌跡采樣,有效避免資源浪費。

在訓(xùn)練中還強制限制了最大對話輪次,避免模型陷入無意義的循環(huán),從而提高了訓(xùn)練效率。


圖 :GRPO-ATS 采樣流程

05.

實驗效果


感知,推理,通用任務(wù)全面提升

訓(xùn)練基于32塊NVIDIA H800 GPU,強化學(xué)習(xí)階段耗時超1200 GPU小時。


在多個基準任務(wù)上,Thyme表現(xiàn)出相較于其他多模態(tài)模型的優(yōu)勢,尤其是在感知任務(wù)上,Thyme即使在與更大規(guī)模的模型Qwen-2.5-VL-32B對比時,也依然顯示出了顯著的優(yōu)勢。這表明,僅僅通過增加模型的規(guī)模并不能有效解決感知任務(wù)中的挑戰(zhàn),相反,Thyme在測試時的擴展策略對感知任務(wù)十分有效。

在推理任務(wù)中,通過將復(fù)雜的計算轉(zhuǎn)化為可執(zhí)行代碼,Thyme在推理能力上取得了顯著的提升。然而,在這一領(lǐng)域,模型規(guī)模的擴展帶來的優(yōu)勢更為顯著,表明推理和邏輯推理能力主要依賴于模型本身的知識量。

由于感知與推理能力的提升,Thyme在許多通用任務(wù)中取得了顯著的進展,尤其是在減少幻覺現(xiàn)象(hallucination)方面。


深入探討感知任務(wù)

以MME-RealWorld為例,它包括許多現(xiàn)實場景中的高分辨率感知任務(wù)。表4展示了Thyme與基線模型在不同任務(wù)上的表現(xiàn)。

可以看到,對于基線模型已表現(xiàn)良好的任務(wù),如OCR、圖表和表格(準確率超過60%,甚至接近90%),Thyme的提升相對較小。然而,對于更困難的任務(wù),如監(jiān)控與自動駕駛,在這些任務(wù)上Qwen-2.5-VL-7B的感知能力較弱時,Thyme的感知和推理任務(wù)的提升超過了25%,尤其是在推理任務(wù)中,提升更為顯著。


----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊爾迪茲:我們24年都沒有晉級過世界杯,我們身上沒有壓力

伊爾迪茲:我們24年都沒有晉級過世界杯,我們身上沒有壓力

懂球帝
2026-03-27 10:24:37
扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰(zhàn)場早已變天!

扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰(zhàn)場早已變天!

老馬拉車莫少裝
2026-03-25 07:41:30
全球光纖告急!“一天一價”,缺口達30%!中國4大巨頭壟斷 60%!

全球光纖告急!“一天一價”,缺口達30%!中國4大巨頭壟斷 60%!

阿器談史
2026-03-27 00:22:26
彗星回歸!火箭老板3億美元收購康涅狄格陽光 2027年將搬至休斯頓

彗星回歸!火箭老板3億美元收購康涅狄格陽光 2027年將搬至休斯頓

羅說NBA
2026-03-28 06:23:47
終于爆發(fā)了,擊落大批美以軍機:隱身戰(zhàn)機,超級大黃蜂不斷下墜!

終于爆發(fā)了,擊落大批美以軍機:隱身戰(zhàn)機,超級大黃蜂不斷下墜!

混沌錄
2026-03-27 16:39:18
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報
2026-03-05 22:39:27
離大譜!人都沒齊就被絕殺了!還能這樣???

離大譜!人都沒齊就被絕殺了!還能這樣???

柚子說球
2026-03-27 19:16:51
達芬奇《最后的晚餐》為何如此出名?放大10倍后,看看猶大的手!

達芬奇《最后的晚餐》為何如此出名?放大10倍后,看看猶大的手!

蔣南強讀歷史
2026-03-22 11:05:08
獨家|中遠海運集運旗下兩艘集裝箱船已向波斯灣方向折返 暫未通過霍爾木茲海峽

獨家|中遠海運集運旗下兩艘集裝箱船已向波斯灣方向折返 暫未通過霍爾木茲海峽

財聯(lián)社
2026-03-27 15:20:06
屋漏偏逢連夜雨,美國兩黨議員提議制裁歐爾班

屋漏偏逢連夜雨,美國兩黨議員提議制裁歐爾班

山河路口
2026-03-27 17:55:49
車管所正式通知:C1駕照“2取消1增加”已執(zhí)行,車主盡早了解

車管所正式通知:C1駕照“2取消1增加”已執(zhí)行,車主盡早了解

小怪吃美食
2026-03-28 04:47:56
英國向全球宣告,中國風(fēng)力渦輪機“高度危險”,禁止采購中國風(fēng)電

英國向全球宣告,中國風(fēng)力渦輪機“高度危險”,禁止采購中國風(fēng)電

書紀文譚
2026-03-27 17:47:25
43歲孫儷在廈門拍戲被偶遇,她變化好大,臉瘦了好多,差點認不出

43歲孫儷在廈門拍戲被偶遇,她變化好大,臉瘦了好多,差點認不出

情感大頭說說
2026-03-27 16:48:44
2026大決戰(zhàn):霍爾木茲海峽的宿命對決

2026大決戰(zhàn):霍爾木茲海峽的宿命對決

紀史行者
2026-03-18 09:08:50
二戰(zhàn)后德國恢復(fù)人口手段有多狠?連日本都不敢用,顛覆三觀!

二戰(zhàn)后德國恢復(fù)人口手段有多狠?連日本都不敢用,顛覆三觀!

歷史人文2
2026-03-26 21:05:03
巴拿馬接到通知,賠款156億還不夠,中方擴大反制,港口管控升級

巴拿馬接到通知,賠款156億還不夠,中方擴大反制,港口管控升級

安珈使者啊
2026-03-27 11:53:48
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

火山詩話
2026-03-25 09:18:58
萬科創(chuàng)始人被限制出境

萬科創(chuàng)始人被限制出境

地產(chǎn)微資訊
2026-03-27 09:13:13
釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

尋墨閣
2026-03-25 11:39:10
伊朗換上了一個“極端狠人”

伊朗換上了一個“極端狠人”

兩岸觀點
2026-03-27 08:41:07
2026-03-28 06:56:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓(xùn)機構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

教育
藝術(shù)
房產(chǎn)
親子
公開課

教育要聞

985保衛(wèi)處招聘要求碩士及以上,學(xué)校回應(yīng)

藝術(shù)要聞

一位好“色”的攝影師

房產(chǎn)要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

親子要聞

天氣暖和了,安排一套孩子自己能玩半天,激發(fā)孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版