DeepSeek又一核心成員離職，入職智駕創(chuàng)企擔任首席科學家

2026-04-14 11:18:38　來源: 智東西

北京舉報

分享至

智東西
編譯劉煜
編輯陳駿達

智東西4月14日報道，4月12號，在智能電動汽車發(fā)展高層論壇上，第三方智能駕駛解決方案供應商元戎啟行CEO周光首次證實，DeepSeek多模態(tài)核心研究員阮翀已加盟該公司，并擔其首席科學家。周光稱，阮翀將在2026年的北京車展首次公開發(fā)表演講。

早在今年1月份，騰訊汽車媒體就曾援引獨立信源消息，稱阮翀已正式加盟元戎啟行。不過彼時元戎啟行并未對此作出官方回應。

元戎啟行的新成員阮翀，他于2018年從北京大學畢業(yè)，并且同時擁有計算機科學學士學位和計算語言學碩士學位。其中屬于計算語言學范疇的自然語言處理（NLP）是他碩士期間的研究方向。

▲阮翀的學歷（圖源：領(lǐng)英）

本科期間，阮翀以訪問學者身份赴美國卡內(nèi)基梅隆大學（CMU）交流，歷時約4個月。在CMU時他師從Victor Adamchik教授，圍繞格羅比納基（Groebner Basis）開展研究，成功實現(xiàn)用最少數(shù)量的多項式方程對數(shù)獨規(guī)則進行代數(shù)建模，其相關(guān)成果是計算代數(shù)相關(guān)領(lǐng)域的原創(chuàng)性突破。

▲阮翀在CMU的訪學交流經(jīng)歷（圖源：領(lǐng)英）

據(jù)領(lǐng)英公開信息查證，從2017年3月開始，阮翀在做智能輸入法、AI語言技術(shù)的公司Kika Tech（觸寶）實習，實習共計約4個月。

在Kika Tech實習期間，他以第一作者身份在2018年計算語言學國際會議（CICLING）發(fā)表論文《Sparse Word Representation for RNN Language Models on Cellphones》，完成了口頭報告。

▲阮翀在Kika的實習經(jīng)歷（圖源：領(lǐng)英）

結(jié)束上一段實習之后，阮翀接著去到網(wǎng)易有道信息技術(shù)（北京）有限公司開始了其5個月的實習。實習期間，他參與實現(xiàn)iPhone 6及以上設(shè)備端0.1秒/句的離線翻譯性能，該成果最終集成至有道翻譯官APP的離線翻譯功能，成功完成了產(chǎn)品化落地。

▲阮翀在網(wǎng)易有道公司的實習經(jīng)歷（圖源：領(lǐng)英）

阮翀于2023年加入了DeepSeek擔任研究員，他曾參與了DeepSeek-VL/VL2以及Janus系列等多模態(tài)模型的研發(fā)。

據(jù)DBLP（計算機科學文獻數(shù)字圖書館）記錄，他與DeepSeek創(chuàng)始人梁文鋒共同署名發(fā)表了9篇論文。阮翀發(fā)表的這些論文為Deepseek大模型推理、高效注意力機制等核心技術(shù)突破作出了關(guān)鍵貢獻。

阮翀以DeepSeek-VL模型研究負責人的身份參與了題為《DeepSeek-VL: Towards Real-World Vision-Language Understanding》的論文研究。

該研究聚焦真實場景下的視覺與語言理解難題，針對文檔、圖表、OCR以及網(wǎng)頁截圖等復雜實際場景，實現(xiàn)了DeepSeek-VL細粒度圖文理解能力，同時通過優(yōu)化訓練策略，一定程度上避免了多模態(tài)模型常見的語言能力退化問題。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

之后，阮翀亦以負責人的身份參與了《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》一文的研究工作。

該研究面向高階多模態(tài)理解任務，提出了混合專家（MoE）架構(gòu)的視覺語言模型DeepSeek-VL2，通過動態(tài)分塊視覺編碼與高效MoE語言主干設(shè)計，在DeepSeek-VL基礎(chǔ)上進一步提升DeepSeek-VL2在真實場景下的理解能力與推理效率，在主流多模態(tài)基準上取得了一定程度上的領(lǐng)先性能。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

同時，阮翀還作為作者之一，發(fā)表了題為《Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation》的Janus模型相關(guān)論文。

該研究提出了一套解耦視覺編碼的統(tǒng)一多模態(tài)框架Janus，通過分別構(gòu)建面向理解與面向生成的獨立視覺編碼通路，在同一自回歸架構(gòu)下同時實現(xiàn)了強大的多模態(tài)理解與高質(zhì)量圖像生成能力，有效解決了單一編碼器難以兼顧兩類任務的技術(shù)瓶頸。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

在阮翀發(fā)表的多篇論文中，他參與撰寫的一篇題為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的論文，獲得了2025年NLP與計算語言學領(lǐng)域的頂級學術(shù)會議ACL的最佳論文獎。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

而后，他參與撰寫的另一篇論文《DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning》，于同年9月刊登于國際權(quán)威期刊《自然》（Nature），并登上當期封面。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

除上述研究外，阮翀還以第三作者身份，撰寫了題為《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》的文章。

從論文內(nèi)容可見，阮翀深度參與了DeepSeek-V3面向H800集群的整體方案設(shè)計，圍繞計算、內(nèi)存與通信等關(guān)鍵硬件瓶頸開展架構(gòu)優(yōu)化工作。

他不僅參與MoE混合專家架構(gòu)的工程化落地，解決大規(guī)模訓練中計算與通信的效率平衡問題，還在MLA等新型注意力機制的設(shè)計與實現(xiàn)中承擔核心工作，為突破模型硬件協(xié)同瓶頸、提升大模型規(guī)模化訓練與推理效率提供了關(guān)鍵技術(shù)支撐。

▲圖為阮翀發(fā)表的論文和作者名單（圖源：DBLP）

可見，阮翀在AI大模型底層技術(shù)領(lǐng)域擁有寶貴的技術(shù)開發(fā)經(jīng)驗。

阮翀此次加入的元戎啟行公司成立于2019年，主要為車企設(shè)計智駕系統(tǒng)。

元戎啟行已與多家車企建立合作，現(xiàn)已有25萬輛搭載其城市領(lǐng)航輔助駕駛方案的車輛進入消費者市場，覆蓋長城、吉利以及smart等多個品牌。

截至目前，元戎啟行已完成6輪融資，累計融資金額超7億美元（約合人民幣47.82億元）。今年4月初，據(jù)36氪汽車報道，元戎啟行已向港交所秘密遞交上市材料，計劃于今年年內(nèi)在港交所掛牌上市。

結(jié)語：大模型人才跨界合作，打通AI與自動駕駛技術(shù)壁壘

目前，傳統(tǒng)智能駕駛多采用感知、預測、規(guī)劃、控制分模塊獨立優(yōu)化的技術(shù)路線，存在信息割裂、迭代效率偏低、數(shù)據(jù)利用率不高等痛點。

阮翀作為AI大模型領(lǐng)域核心人才加盟元戎啟行，或可憑借其在多模態(tài)對齊、大模型推理效率優(yōu)化及稀疏架構(gòu)設(shè)計等方面的深厚積累，在一定程度上為該公司VLA基座模型的規(guī)模化量產(chǎn)落地提供技術(shù)支撐，從而增強其產(chǎn)品的市場競爭力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.