![]()
智東西
編譯 劉煜
編輯 陳駿達
智東西4月14日報道,4月12號,在智能電動汽車發(fā)展高層論壇上,第三方智能駕駛解決方案供應商元戎啟行CEO周光首次證實,DeepSeek多模態(tài)核心研究員阮翀已加盟該公司,并擔其首席科學家。周光稱,阮翀將在2026年的北京車展首次公開發(fā)表演講。
早在今年1月份,騰訊汽車媒體就曾援引獨立信源消息,稱阮翀已正式加盟元戎啟行。不過彼時元戎啟行并未對此作出官方回應。
元戎啟行的新成員阮翀,他于2018年從北京大學畢業(yè),并且同時擁有計算機科學學士學位和計算語言學碩士學位。其中屬于計算語言學范疇的自然語言處理(NLP)是他碩士期間的研究方向。
![]()
▲阮翀的學歷(圖源:領(lǐng)英)
本科期間,阮翀以訪問學者身份赴美國卡內(nèi)基梅隆大學(CMU)交流,歷時約4個月。在CMU時他師從Victor Adamchik教授,圍繞格羅比納基(Groebner Basis)開展研究,成功實現(xiàn)用最少數(shù)量的多項式方程對數(shù)獨規(guī)則進行代數(shù)建模,其相關(guān)成果是計算代數(shù)相關(guān)領(lǐng)域的原創(chuàng)性突破。
![]()
▲阮翀在CMU的訪學交流經(jīng)歷(圖源:領(lǐng)英)
據(jù)領(lǐng)英公開信息查證,從2017年3月開始,阮翀在做智能輸入法、AI語言技術(shù)的公司Kika Tech(觸寶)實習,實習共計約4個月。
在Kika Tech實習期間,他以第一作者身份在2018年計算語言學國際會議(CICLING)發(fā)表論文《Sparse Word Representation for RNN Language Models on Cellphones》,完成了口頭報告。
![]()
▲阮翀在Kika的實習經(jīng)歷(圖源:領(lǐng)英)
結(jié)束上一段實習之后,阮翀接著去到網(wǎng)易有道信息技術(shù)(北京)有限公司開始了其5個月的實習。實習期間,他參與實現(xiàn)iPhone 6及以上設(shè)備端0.1秒/句的離線翻譯性能,該成果最終集成至有道翻譯官APP的離線翻譯功能,成功完成了產(chǎn)品化落地。
![]()
▲阮翀在網(wǎng)易有道公司的實習經(jīng)歷(圖源:領(lǐng)英)
阮翀于2023年加入了DeepSeek擔任研究員,他曾參與了DeepSeek-VL/VL2以及Janus系列等多模態(tài)模型的研發(fā)。
據(jù)DBLP(計算機科學文獻數(shù)字圖書館)記錄,他與DeepSeek創(chuàng)始人梁文鋒共同署名發(fā)表了9篇論文。阮翀發(fā)表的這些論文為Deepseek大模型推理、高效注意力機制等核心技術(shù)突破作出了關(guān)鍵貢獻。
阮翀以DeepSeek-VL模型研究負責人的身份參與了題為《DeepSeek-VL: Towards Real-World Vision-Language Understanding》的論文研究。
該研究聚焦真實場景下的視覺與語言理解難題,針對文檔、圖表、OCR以及網(wǎng)頁截圖等復雜實際場景,實現(xiàn)了DeepSeek-VL細粒度圖文理解能力,同時通過優(yōu)化訓練策略,一定程度上避免了多模態(tài)模型常見的語言能力退化問題。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
之后,阮翀亦以負責人的身份參與了《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》一文的研究工作。
該研究面向高階多模態(tài)理解任務,提出了混合專家(MoE)架構(gòu)的視覺語言模型DeepSeek-VL2,通過動態(tài)分塊視覺編碼與高效MoE語言主干設(shè)計,在DeepSeek-VL基礎(chǔ)上進一步提升DeepSeek-VL2在真實場景下的理解能力與推理效率,在主流多模態(tài)基準上取得了一定程度上的領(lǐng)先性能。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
同時,阮翀還作為作者之一,發(fā)表了題為《Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation》的Janus模型相關(guān)論文。
該研究提出了一套解耦視覺編碼的統(tǒng)一多模態(tài)框架Janus,通過分別構(gòu)建面向理解與面向生成的獨立視覺編碼通路,在同一自回歸架構(gòu)下同時實現(xiàn)了強大的多模態(tài)理解與高質(zhì)量圖像生成能力,有效解決了單一編碼器難以兼顧兩類任務的技術(shù)瓶頸。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
在阮翀發(fā)表的多篇論文中,他參與撰寫的一篇題為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的論文,獲得了2025年NLP與計算語言學領(lǐng)域的頂級學術(shù)會議ACL的最佳論文獎。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
而后,他參與撰寫的另一篇論文《DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning》,于同年9月刊登于國際權(quán)威期刊《自然》(Nature),并登上當期封面。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
除上述研究外,阮翀還以第三作者身份,撰寫了題為《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》的文章。
從論文內(nèi)容可見,阮翀深度參與了DeepSeek-V3面向H800集群的整體方案設(shè)計,圍繞計算、內(nèi)存與通信等關(guān)鍵硬件瓶頸開展架構(gòu)優(yōu)化工作。
他不僅參與MoE混合專家架構(gòu)的工程化落地,解決大規(guī)模訓練中計算與通信的效率平衡問題,還在MLA等新型注意力機制的設(shè)計與實現(xiàn)中承擔核心工作,為突破模型硬件協(xié)同瓶頸、提升大模型規(guī)模化訓練與推理效率提供了關(guān)鍵技術(shù)支撐。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
可見,阮翀在AI大模型底層技術(shù)領(lǐng)域擁有寶貴的技術(shù)開發(fā)經(jīng)驗。
阮翀此次加入的元戎啟行公司成立于2019年,主要為車企設(shè)計智駕系統(tǒng)。
元戎啟行已與多家車企建立合作,現(xiàn)已有25萬輛搭載其城市領(lǐng)航輔助駕駛方案的車輛進入消費者市場,覆蓋長城、吉利以及smart等多個品牌。
截至目前,元戎啟行已完成6輪融資,累計融資金額超7億美元(約合人民幣47.82億元)。今年4月初,據(jù)36氪汽車報道,元戎啟行已向港交所秘密遞交上市材料,計劃于今年年內(nèi)在港交所掛牌上市。
結(jié)語:大模型人才跨界合作,打通AI與自動駕駛技術(shù)壁壘
目前,傳統(tǒng)智能駕駛多采用感知、預測、規(guī)劃、控制分模塊獨立優(yōu)化的技術(shù)路線,存在信息割裂、迭代效率偏低、數(shù)據(jù)利用率不高等痛點。
阮翀作為AI大模型領(lǐng)域核心人才加盟元戎啟行,或可憑借其在多模態(tài)對齊、大模型推理效率優(yōu)化及稀疏架構(gòu)設(shè)計等方面的深厚積累,在一定程度上為該公司VLA基座模型的規(guī)模化量產(chǎn)落地提供技術(shù)支撐,從而增強其產(chǎn)品的市場競爭力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.