337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

KaLM-Embedding-V2重塑高質量文本嵌入格局

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

大模型驅動的語義表示時代,文本嵌入模型(Text Embedding Models)已成為檢索、STS、分類、排序等各類NLP下游任務的核心基石。然而,主流嵌入模型普遍依賴大規模數據或合成數據,很少系統性探索訓練技巧與數據質量的協同優化。

結果就是,并且由于模型體積龐大,部署成本高昂,其泛化能力和可復現性不太理想。

此外,多數業界領先的嵌入模型來源于頭部公司,其專有數據、封閉代碼和商業限制為學術界和開發者社區帶來了巨大的挑戰,使得高效、可復現的研究難以進行。

為此,KaLM-Embedding團隊推出了KaLM-Embedding-V2系列模型,一個以高質量數據+精湛訓練技巧為核心打造的緊湊通用嵌入解決方案。它不僅性能強悍,更以0.5B參數的“小體型”挑戰甚至超越多個7B~9B級模型!與同參數量規模的Qwen3-Embedding-0.6B以及bge-m3相比,KaLM-Embedding-V2系列展現出來顯著的性能優勢。


最重要的是,KaLM-Embedding不僅僅是一系列單點模型,而是一個面向學術界的全面開源貢獻:

  • 完整的數據配方和全開源的數據讓研究者能直接從training-ready的數據集著手;

  • 卓越的訓練技術:讓研究者快速構建媲美工業級的檢索器模型。

  • 開放的商業授權:明確開放模型的商用權限,旨在推動RAG基礎設施的普及;

  • 完整的訓練與推理代碼:降低復現與擴展的門檻,以及下游任務適配難度;


KaLM-Embedding團隊望借此推動通用文本嵌入技術的開放:讓任何研究者、開發者乃至企業團隊,都能自由使用、改進與擴展這一嵌入框架;讓高質量的語義理解能力不再只屬于超大規模模型與封閉系統,而能通過開放數據與透明訓練,被更廣泛地共享、驗證與創新。模型已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/YanshekWoo/KaLM-embedding-multilingual-mini-instruct-v2.5

01.

模型方法


全雙向表征學習

KaLM-Embedding-V2系列采樣Qwen2-0.5B作為模型主干,但在架構上進行了關鍵性改造。LLMs天生具有因果注意力掩碼,這限制了嵌入模型在進行表征學習時對全局上下文的捕捉。KaLM-Embedding-V2除了這一掩碼,實現了完全雙向的注意力機制,讓模型能夠更全面、更精確地捕捉文本的深層語義,為高性能嵌入打下堅實基礎。模型僅0.5B參數,卻在語義嵌入質量上媲美甚至超越3–26x大的模型。



精湛訓練技巧

為解決嵌入模型訓練中存在的若干問題,包括優化方向易被簡單樣本主導、難負樣本信息量隨訓練衰減、hard標簽信號過于粗粒度。研究團隊系統性地設計了一系列訓練優化技術,它們是KaLM-Embedding-V2性能騰飛的關鍵:

  • 焦點式重加權機制:借鑒Focal Loss的精髓,持續聚焦于那些“困難”和“易錯”的難樣本,從訓練原理上保證了模型的邊界判別能力能夠對標工業級檢索器的要求。

  • 在線困難負樣本混合:針對離線挖掘的難負樣本隨著訓練進行提供的信息量不足的問題,模型在訓練過程中動態混合現有難負樣本的特征,在極低計算成本下,實時合成信息量更多、難度更高的難負樣本。

  • 對比蒸餾:從更強的教師模型中學習“細粒度語義差異”,實現語義區分力的飛躍。這使得模型實現了從“粗語義理解”到“精語義對齊”的質變。

  • 套娃式嵌入:對比學習和對比蒸餾訓練目標引入套娃表示學習,實現更魯棒的多維靈活嵌入,低維度依然穩健的高性能。


高質量數據為王

“好模型,離不開好數據”。KaLM-Embedding 團隊建立了一個系統化的高質量訓練數據構建體系。預訓練覆蓋 20+類弱監督語料(約470M樣本),精調與蒸餾階段覆蓋100+類高質量監督數據(約6M樣本)。數據覆蓋多語言,多領域,多任務,長短文本。主要來源于公開數據集。引入任務指令、難負例挖掘、基于樣例的多類別標注樣本、Persona數據生成等策略,極大豐富任務多樣性和數據的質量:

  • 任務指令:在輸入到模型進行編碼之前,會將特定的任務指令(task instruction)前置于查詢文本(query)之前。



  • 難負例挖掘:在對比學習中,模型的目標是最大化查詢與其正樣本之間的相似度,同時最小化與負樣本,尤其是難以區分的負樣本之間的相似度。難負例挖掘用于提供具有挑戰性的訓練樣本,以增強模型細粒度的區分能力。實現方式包括離線挖掘以及本工作提出的在線困難負樣本混合。

  • 基于樣例的多類別標注樣本:針對分類和聚類數據集,構建基于樣例的雙端分類樣本;對同類別聚類的樣本視作正樣本,將其他類別或聚類里面的樣本是做負樣本。

  • Persona數據生成:通過引入具有不同角色(Persona)設定的合成數據,進一步增強訓練數據的多樣性,并擴大模型的領域覆蓋范圍。



Spark-Chemistry-X1-13B能夠助力化學相關科研工作的高效推進與深遠探索,使得開發者能夠高效便捷搭建化學性質預測、化學知識檢索問答等相關應用,同時也激發了更多跨領域創新可能,例如計算機科學與化學、生物學與化學等。

02.

實驗性能表現


主要結果

在MTEB英文和中文benchmark上,KaLM-Embedding-V2系列取得了雙料冠軍(< 1B parameters);對比更大的嵌入模型,比如bge-multilingual-gemma2,在參數量僅有1/18的情況下,KaLM-Embedding-V2性能表現也絲毫不遜色。在具體子任務上,KaLM-Embedding-V2.5在10/13 cases中,取得了最優或次優的表現

值得一提的是KaLM-Embedding-V2系列微調數據量僅6M,同時僅使用2-4 GPUs,Qwen3-Embedding-0.6B則使用了19M的微調數據量,充分說明精湛的訓練技術和卓越的數據工程的有效性。





OOD評估

為評估模型在真實工業場景下的魯棒性與泛化能力,我們在兩個中文域外檢索任務中進行測試:客服FAQ檢索與游戲文檔搜索。所有數據均來自真實用戶,且未用于模型訓練。結果顯示KaLM-Embedding-V2.5在相似規模下取得SOTA性能并在僅為Qwen3-Embedding-8B 參數量約1/15的情況下在8/12項上表現更優,體現出了強大的泛化與魯棒性。



可視化分析

為分析嵌入質量與下游任務性能的關系,我們在多種中英文聚類與分類數據上進行可視化。結果顯示,KaLM-Embedding-V2.5的嵌入分布更緊湊、類別更分離相比V1和Qwen3-Embedding-0.6B,能更好區分細粒度語義。在RedditClustering和CLSClusteringP2P等任務中,V2.5的語義聚類更清晰,進一步驗證了其優越的語義表示能力。


KaLM-Embedding-V2系列由KaLM-Embedding團隊聯合推出,通過高質量數據與精湛訓練技巧,在僅0.5B參數下實現跨語言、多任務SOTA表現,性能媲美3-26x大的模型;其全開源、可商用、可復現的設計,旨在推動通用文本嵌入的開放,打造高效、透明、可持續的語義表示。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗武裝部隊向以色列發射新一輪導彈

伊朗武裝部隊向以色列發射新一輪導彈

財聯社
2026-03-26 19:42:42
4000萬求購羅馬指揮官,國米為齊沃新思路“拼了”

4000萬求購羅馬指揮官,國米為齊沃新思路“拼了”

里芃芃體育
2026-03-26 11:15:07
在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

另子維愛讀史
2026-03-24 21:15:00
4月1日起,微信支付寶轉賬規則大變!這3個習慣趕緊改

4月1日起,微信支付寶轉賬規則大變!這3個習慣趕緊改

老特有話說
2026-03-25 15:30:13
掀掉洋蔥頂,整治宗教泛濫的第一步

掀掉洋蔥頂,整治宗教泛濫的第一步

黑哥講現代史
2026-03-14 15:46:38
我發現一個真相:資本愛找孫穎莎代言,根本不只是因為她有流量,

我發現一個真相:資本愛找孫穎莎代言,根本不只是因為她有流量,

小光侃娛樂
2026-03-25 13:40:05
凈利潤暴跌90%!理想的銷量神話破滅

凈利潤暴跌90%!理想的銷量神話破滅

大佬灼見
2026-03-13 12:23:26
扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰場早已變天!

扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰場早已變天!

老馬拉車莫少裝
2026-03-25 07:41:30
王楚欽師娘爆料!孫穎莎無論是長相性格還是人品,都是無以倫比的

王楚欽師娘爆料!孫穎莎無論是長相性格還是人品,都是無以倫比的

大中國
2026-03-24 15:25:36
卡塔爾正式宣布暫停跟中國的合同,而且短時間內不會恢復

卡塔爾正式宣布暫停跟中國的合同,而且短時間內不會恢復

南權先生
2026-03-25 15:19:55
49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

查爾菲的筆記
2026-03-16 19:12:07
中共中央批準,開除劉慧黨籍

中共中央批準,開除劉慧黨籍

新京報政事兒
2026-03-26 17:13:05
人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

掠影后有感
2026-03-26 10:39:36
哈薩克斯坦也沒想到,跟著中國混來混去,結果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結果自己也混成了個霸主

說歷史的老牢
2026-03-26 01:18:38
小米捷報,誤傷寧德時代

小米捷報,誤傷寧德時代

ZAKER新聞
2026-03-26 22:10:32
2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

李喜林籃球絕殺
2026-03-26 17:04:26
美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

愛吃醋的貓咪
2026-03-22 22:29:08
看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

蓓小西
2026-03-23 08:31:26
倒計時36天預警!黃金或迎拋售潮,多國限金條出口,中國已搶先布局

倒計時36天預警!黃金或迎拋售潮,多國限金條出口,中國已搶先布局

哄動一時啊
2026-03-26 20:23:42
富人的生活能有多夸張?網友:根本找不到心動還門當戶對的人

富人的生活能有多夸張?網友:根本找不到心動還門當戶對的人

帶你感受人間冷暖
2026-03-27 00:05:14
2026-03-27 01:35:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

房產
健康
教育
手機
軍事航空

房產要聞

突發,三亞又有大批征遷補償方案出爐!

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

手機要聞

1499 iQOO Z11系列發布丨9020mAh電池 165Hz高刷

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版