網易首頁 > 網易號 > 正文申請入駐

對話卓馭科技CTO馬陸：100%端到端的歷史性一躍

2026-04-12 16:18:52　來源: 智駕網

北京舉報

分享至

去年我記得大概到八、九月的時候吧，我們一個星期能出將近100個模型，那時候有點亂撞，看運氣，因為確實不太知道咋調。

我們做移動基座到最后，如果真的做成了，它關注的是一個移動能力，能力是可以在很多的場景落地的，你可以移動一個大車、小車、卡車、啥車、物流車你都可以移動。

智駕和物理AI基本上已經差不多一回事了，只要你是搞數據驅動，搞AI的，你就逃脫不了這個宿命，你就是在這么巨大的一個AI圈子里面互相外溢。

——卓馭科技CTO 馬陸

對話對話卓馭科技CTO馬陸：100%端到端的歷史性一躍

出品：智駕網
主持人：賈紅兵
對話嘉賓：馬陸

脫身于大疆的卓馭科技在中國的智駕市場一直以「價格屠夫」著稱，它們從低算力、低成本切入，以讓10萬元不到的A0級電動車也能實現智駕平權為目標。這背后是卓馭的真正實力：「實現同等能力，其算力需求遠低于行業平均值」。

馬陸，在2016年美國科羅拉多?學博爾德分校計算機科學系博?畢業后即加入了?疆創新，從0 -1主導構建了?疆?載事業部的完整研發體系與技術能?，并帶領團隊完成了向獨?公司卓馭科技的研發體系升級與能?拓展。

其個人擁有20+國際專利、帶隊500+專利。今天，其團隊已建?起覆蓋?動駕駛全棧的研發與交付能?，其構建的「移動智能基座」正成為賦能智能駕駛及更?泛移動智能場景的核?技術架構。

智駕網深度對話馬陸，卓馭科技如何在2024年All in端到端后在2026年春迅速迭代至4.0版本，去掉一切手寫規則，實現100%端到端，完成歷史性的一躍。

01.

從端到端到基座模型

智駕網：卓馭在2024年All in端到端，2025年2月推出了高悟性端到端的第一個版本，今天進入到了高物性端端4.0版本，為什么迭代速度這么快？

馬陸：在2024年9月的時候，我們決定All in端到端，因為當時確實覺得按照規則的方法往下做太難了、搞不定了，特別是城區的很多場景太多了，專家沒辦法歸納出來這些場景的規律，搞不下去了。

在2025年的二、三月的時候，我們的高悟性端到端第一個版本就出來了，這第一個版本比較好的把縱向的體驗做的比較絲滑和順序性之后，我們內部更加堅定了這條道路。

到去年12月的時候，其實我們內部有一個內測叫3.0的版本，但是沒有發。

這次發的4.0版本，隨著公司更加堅定做端到端，以及內部更加順暢的按照端到端的范式去做事情，包括改變大家的工作習慣、組織的習慣，搭建對應的數據，基礎設施的這種系統，我們感受到，就是技術的進步很多時候是超出我們的想象的。

我記得印象很深刻的，在去年國慶，公司集中機器和資源訓了7天，回來之后就看到了幾個版本，這幾個版本提升非常的巨大，比我們之前想象的都要大，比排著任務的目標都要好。所以說，后面的這個版本其實加速就更快了。我認為在端到端這個范式里面，只要大家把這個事情做對了，確實是遠超原來按照規則的方法，堆人頭的這種方法做事情。

智駕網：也就說咱們沒有正式推出端到端3.0版本，直接進入了4.0？

馬陸：對。

2.0的時候，我們是去年9月份找大家來試駕的，2.0這個版本，我們的模型會輸出6條的備選軌跡，由專家的算法去評測一條最安全、最舒心的。

大概到去年10月、11月，我們發現專家已經選不出更好的軌跡了，很多時候這個軌跡看上去都差不多，但是如果你在軌跡選擇的時候出現了錯誤，你往往會發現這個方向盤會抖一抖，它可能一會想左轉，一會想直行，它可能會頓挫一下，會給人帶來比較不好的體驗。

在去年大概10月、11月的時候，我們內部成功的改變了這個范式，變成了模型只給一條軌跡，也不用人去選了，這條軌跡本身，在訓練的過程中通過海量的數據做評測，我們就確保它是最安全的、最舒心的、最可靠的。

在做完這件事情之后，在（去年）12月，3.0版本差不多出來了，但是在（今年）1月初的時候，我們當時立了最后一個目標，就是端到端這個范式里面，我們希望你在用、在體驗的時候，你體驗不到任何的規則感，無論是變道導航，還是橫向、縱向都體驗不到。

當時立了個目標，把最后一個沒有「端到端」端掉，就是領航。

領航對我們來說一直是老大難的問題，領航往往會有提前多少米變道這種做法，很多時候你會寫一些規則，比如超視距的變道你會寫規則，前方兩公里要怎么左右轉一下，你可能1.2公里怎么一下，600米怎么變一個道，400米怎么變道，但是這規則其實很難寫得好。

另外，在深圳這些城市，你會看到違規停放在路邊的車輛，可能會擋住你要變的那個道，特別是占用了最右邊的一條道，那我們老的版本有可能，這個車子很尷尬的停到了一個違停車的屁股后面就不動了，這些問題我們都希望解決掉。

當時在1月份立了個目標，希望在上半年四、五月的時候把這事就解決掉，但是進展確實超出預期，在二月十幾號就做出來了。

基本上模型感知到了結果之后，直接給到了預測、決策、規劃、控制，直接結合導航地圖信息，導航地圖有前背景信息，比方說你看車機導航，會說多少米右轉或有個箭頭，我們叫前景背景，前景背景信息我們會用，智駕地圖的東西也會給到我們數據，結合這些數據，我們就可以自動端到端地完成變道。

所以現在高性能端到端4.0，第一就是比我們預期要早出來，第二就是體驗確實全面超出3.0，另外它全場景的橫縱向的體驗，包括領航體驗，一切體驗都是端到端端出來的，包括端到端做的掉頭，掉頭我們曾經是規則做的，現在都是數據驅動。

基于這套范式的話，系統可以逐漸通過加數據變得越來越好，而且它是可預期的變好。

智駕網：就是其實我們對于每個版本是有一個標準的？

馬陸：是有標準的，所以說我們沒有推出3.0直接進入到4.0。

智駕網：就這個標準是不是意味著我們比如5.0、6.0、7.0也有不同的標準來確定？

馬陸：對。

我們在今年北京車展會推出一個新的范式，叫做視覺基礎模型，我們會在雷神（參數丨圖片）（英偉達Thor芯片）或更大算力平臺部署。我們也正在做一件事情，把這個對應的能力遷移到像200T的平臺上。

這個范式我們叫做基礎模型，它是一個視覺或動作模態的這么一個東西，有V和A，目前暫時沒加L，但是后面會加。

這個模型本身，所有傳感器的數據進入模型之后，直接輸出軌跡，中間沒有顯示的感知任務。

這個模型其實現在已經跑起來了，我們內部評測的結果，比高悟性4.0還要強很多，端味非常強，然后橫縱向的絲滑感，各種體驗非常的好。

這個版本除了在大算力平臺上會迸發出非常完整的能力之外，我們也正在把這個對應的能力通過量化一些其他的手段，把它往小算力平臺上堆。

02.

涌現和幻覺的邊界

智駕網：咱們這次推出的高性能端到端，宣傳100%的端味，徹底拿掉了人工規則，這與市場上一些宣稱一段式端到端有什么區別？

馬陸：從體驗的角度來說比較好看出來，如果你感受到可能覺得快壓線了，它突然間給你回個方向盤，回的很厲害、很夸張，為了避免不壓那個線，或者說它走著走著突然間急剎一下、頓一下，那其實它還是有比較多的一些規則兜底，來提高這個模型的一些底線。那我們在這個版本里面基本上都不太有了，非常非常的少。

智駕網：這次升級有盲區誤判、防御性駕駛、窄路會車、三點式掉頭，這些能力在端到端架構里是怎么實現的？

馬陸：在數據驅動的方案范式之下，第一你就要得有對應的數據，數據你得攢夠，然后你得把數據的分布調好。

第二確實在建模的時候，我們做了一些方案上的嘗試，改變了我們過去的一些建模方式，包括我剛剛講到的軌跡的推理就推理一個軌跡，但如何保證那一個軌跡的性能，也做了很多的事情。

包括我們現在模型本身這個方案，從去年年初到后面改了非常多的版本，最早我們做的這個方案會嘗試推理前方，比方說幾秒的軌跡點，它可能是XY這些形式，到中間呢，可能又會變成了速度這塊，從期望速度改成了加速度，在后面呢，我們就變成干脆是方向盤的轉角和油門加減速了，一步步到了現在這個狀態。

那包括剛剛講到的一些防御性駕駛的各種能力，它也在數據驅動的過程中逐漸涌現出了這些能力，它確實可以在一些盲區自動的做一些減速。

智駕網：您說這個涌現，系統會突然出現沒見過的這種場景處理方式，您認為這是真涌現嗎？卓馭的端到端有沒有出現過這種現象？現在行業里也有一種說法，對于涌現不是很認同，他認為是幻覺，這個涌現和幻覺的邊界在哪里？

馬陸：你說的很對。

首先從一個AI的系統來看，如果你遵循了數據驅動這個范式，如果你模型設計足夠大到某個程度的參數，它確實從能力上來說，會不斷涌現。

咱們可以看看語言大模型，他們發展更加的領先：2020年ChatGPT3.0開始，它早年涌現出了一些能力，但有些時候它可能也胡說八道，你也不知道它在干什么，但這些問題也逐步被解決掉了。

現在咱們可以看到這些大模型，能夠在方方面面上顛覆我們的一些工作。

我們今天的這些智駕的模型，充其量只是大模型行業2022年的水平，大概在2022年左右，我們都覺得語言大模型已經通過圖靈測試了。

去年我記得FSD V14剛出來的時候，馬斯克說，他這個東西約摸著通過了開車的這個圖靈測試了，我不能斷定他那個版本到底通過了沒，但是我覺得也不外乎這半年，肯定就差不多得有人能通過了。

但是你通過的那一刻其實還有很多問題，會在后面需要解決，你如何保證這個AI足夠安全，它不犯傻、它不做奇怪的事。

你像語言大模型，它也做奇怪的事，它大部分時候很正常，所以很多的研究學者去研究語言模型怎么做安全，怎么不做奇怪的事情。

至于你說幻覺也好，涌現也好，我還是比較樂觀的，我是傾向于認為更多的能力是在涌現，有些時候確實在幻覺，但我不認為它都是幻覺。

03.

大模型與人類一樣都是黑盒，但都可以驗證

智駕網：這其實說的就是不確定性，這種物理大模型或者說大模型訓練像煉丹，不知道哪鍋是好是壞，不可解釋。卓馭的100%端到端，如何解決黑盒不可控，不可預測這個問題？

馬陸：其實我們有兩類工作思路，我們最早的工作思路，傳統一些，在規則算法開發時候常用的思路，就是通過自己親身去設計，這個系統里面每一行代碼，每一個邏輯，都是我精心設計的，因為我徹底的了解它，所以它有什么毛病我也知道，當然我也會寫很多Bug，這就是老的邏輯。

基于這套邏輯，客觀上來說，你說他能不能解釋呢，他也能解釋，但是好不好使呢，行業證明了，它到天花板了，它不好使。

現在端到端大模型的這種年代，大家對于如何控制這個模型，其實也有很多辦法。

當然這個模型你可以理解為是模型自己練出來的，他這個參數怎么想明白的，其實咱也搞不清楚，但是你有很多辦法去觀察他，比方說你有很多評測的手段，你至少可以給他出很多考題，讓他一道一道題去做，看看它到底怎么樣。

考題你也可以做得很細致，可以把駕駛場景簡單分高速、快速或城市，城市又可以分成很多細分場景，可能分出幾千個場景，每個場景你找到必要的數據，比較難的這個場景的，或者說比較簡單的，他就像評價一個人一樣的，人不也高考嗎？有這個基礎題必定拿分，有這個拉分題是吧，還有附加題，一般都做不出來，做出來就很厲害了。

人類其實本質上也是黑盒，就像你、我，咱都不知道對方腦子里是咋回事，但是我們是怎么約束人類這個世界的呢，其實也是通過很多的考試，很多的評價標準，說你達到了沒。

模型也是類似的，我們現在做模型的準出，也會做評測看它達到了沒，各種場景怎么樣，我們也會有基礎題，有拉分題去看行不行，他不行的話，我們就不讓他準出，就回爐重造了。

去年我記得大概到八、九月的，我們一個星期能出將近100個模型，那時候有點亂撞，看運氣，因為確實不太知道咋調。但是隨著后面我們越來越熟練，現在這個數量沒那么多了，現在我們可能一周就十來個，十個里挑一個好的，這一個好的要把各種題都做一遍，那行了它就過，不行就不行。

這其實也很像語言大模型行業，都有各種各樣的Benchmark基準，各種各樣的奧賽題，你做一遍看看怎么樣，人類只能拿60分，它已經拿到90分了，它各個細分能力就跟咱們開車一樣，可能這個模型環島不太行，但可能掉頭杠杠的。

當然數據清洗很必要，我們確保我們的這個模型，不要看到很多那種臟的數據，那種不規范駕駛行為的數據，我們得把那些給搞掉，也別讓他看到過多的某一類數據。

所以對于模型的評價或者說對模型的控制，有點像一個人的成長過程，你可能有個老師在教你，就是如果你把這個人，約束太多，教太多，每一步都干預他，可能他就廢了；如果你給他很多的空間，讓他發揮，但是你告訴他底線在哪里，必須要怎么樣，那他可能經過他的思考，把他腦子里的一些神經元激活出來，在某些地方上特別強，可能就涌現出一些所謂能力：這個題，兩周前就完全不會解，現在突然開竅了，全都會做了，你問他你怎么會的，哎呀他也不知道咋會的。

智駕網：對于黑盒的解釋，就是通過現實世界的物理測試來實現它的白盒化。但是監管部門有沒有可能要求你們提供這種源代碼？

馬陸：目前沒有遇到過這種這種場景，但如果要去審核、審查什么，有要求就做唄，可以給他們來看，我覺得沒所謂，它只是個源代碼而已。因為大模型訓練本身，代碼只是一小部分，更核心的還是數據，數據的分布、配比以及訓練的資源。

智駕網：您認為智駕大模型能不能信任？

馬陸：就是無論是您，還是監管部門，還是消費者，我覺得現在畢竟都是輔助駕駛，無論它是大模型還是大大模型，還是大大大模型，目前這個階段它確實是輔助駕駛。所以從用的角度來看，包括我自己，每一個版本我還是會需要自己快速了解這個能力邊界的，我對它能力邊界的了解比較深入之后，在我比較放心的場景，我會更多讓它去來駕駛，但是最終我還是會很清楚知道，我是這個安全責任的第一主體，它畢竟不是一個L4的東西。

智駕網：它因為是一個純粹的端到端架構了，會不會認為沒有安全兜底的這么一個冗余？

馬陸：兜底這個詞本身，它有一定的負面引導作用，這個詞被造出來之后會讓你覺得它好像就是能夠保障最后的一個安全底線，但事實上并不是。

今天一切的輔助駕駛的系統，有兜底沒兜底，你都會發現100公里總得接管個兩三次，你能說有兜底就不管了嗎，他也不能啊。

所以我覺得，兜底只是一種措施和手段，讓接管盡可能的少一點，但是我們如果通過數據驅動的辦法來做，我們通過評測在訓練的過程中，在模型的研發過程中，我們可以對模型做各種各樣的監控，從實際結果來看，模型的能力提升之后，這個兜底就不太需要了，甚至很多時候兜底都是在亂兜底，比方說有些時候兜底很難做，你感覺有個東西要加塞，這時候你是減速還是不減速？有可能突然減速后面就追尾，那你說兜的好還是不好？

智駕網：去年咱們提出了數據閉環和體驗閉環的雙飛輪，現在搭載卓馭方案的車輛有多少，這個量是不是足夠支撐咱們對數據的需求？

馬陸：目前搭載卓馭相關方案的車型，已經量產的是五十來款，我們手上在途的定點數量已經超過了100多款，還有小幾十個商用車。我們數據獲取渠道是比較多的，有主機廠的數據，也有我們自采的數據，仿真的數據。

目前來看，對于高質量的數據都是缺的，它就像題海戰術做題一樣，題得多樣性。其實你看今年，大家都不太提我有幾百萬個Clips，如果你有高質量的幾百萬的Clips，你的訓練效果比一兩千萬個普通的Clips都要好。所以我們今年開始更多的資源會聚焦在怎么獲得高質量的數據。

智駕網：怎么區分高質量？

馬陸：比較好的辦法就是說，通過場景的角度劃分價值，比如駕駛可以分成高、快領航、城市領航、停車場這些場景。

以城市領航為例，我們可以把它再往下劃分，比方說過十字路口，變道你就可以劃分可能二、三十個場景，每一個劃分完你又可以再往下劃分。

場景劃分足夠細之后，我們就會在足夠細的這種樹形結構的場景樹里面，去放數據，找數據，確保每一個分支的數據足夠。假設這個系統從來沒有見過某種異形的交通燈，那大約它就是應對不了，那我們可以通過處理場景的角度，找到這種異形的交通燈的數據。

找到之后我們就會來看，回傳來的數據有沒有這個東西，沒有那就只能去專門采集，或通過仿真的手段去做。通過這種辦法去主動去挖、去采場景的數據，挖掘場景其實是目前比較核心的一個工作。

智駕網：結合卓越的技術優勢，您有沒有一個評價好的智駕大模型的標準?

馬陸：從評價的角度來看，第一，消費者用戶的評價確實是體驗導向的，從功能的角度來看，其實大家都差不多，城市領航你說功能有啥區別呢？沒啥區別。

2023年、24年，數據驅動沒有被認可的時候，大家都知道叫做體驗打磨，怎么打磨呢，就是找到更多的場景寫更多的規則，把它串起來做到很極致。

但現在數據驅動之后，也有所謂打磨的說法，

這個打磨就是找到更多的數據，更好分布的數據，以及合適的數據的配比，找一個更先進的模型架構，去讓這個模型把這些數據的知識吸進去、吃進去，去提升它。

但到最后我覺得消費者投票也很簡單，他就是體驗一下，這個很像手機，已經是看參數毫無區別了，但照樣有些手機賣1,000，有些手機賣八九千，那看的就是用戶體驗，你拿到手上把玩一下，幾分鐘就知道了。

那智駕其實同理，體驗一下，可能15分鐘就差不多。

如果你不看親身體驗，你看參數或者說是看網上的一些測評，其實有些時候你是拿不定主意的。對于我們企業來說，我們剛剛講了就是我會把場景做細，然后做每個場景的評測，版本準出的時候會基于每個場景去打分，最后選出一個最好的。

智駕網：一個是自己的客觀打分，一個是消費者的體驗？

馬陸：對。當然我們還有大量的這個全國的泛化，我們有一個車隊，每一天都在全國各地跑。

智駕網：現在多少輛車在全國跑？

馬陸：目前我們大概有五六十臺車一直在外面跑，那種大模型升級之后立刻升級，每周就會跑一個新版本。

04.

智駕大模型化推高了研發的門檻

智駕網：像剛才說的，咱們生成了幾百個大模型版本，這是不是對算力和成本要求很高？

馬陸：你可以認為有點像2025年年初，Deepseek說我練這個模型就花了幾百萬，歐美國家搞了幾十個億，你怎么花幾百萬？我覺得他那個幾百萬，大約是最后那一個模型，他中間可能研發了100個大家都不知道，可能每個都幾百萬，我們也差不多。

比方說一個模型稍微改吧一下，那基本上幾十萬肯定就沒了，一周可能100個，那可能就一下子幾千萬，就幾百萬就沒了，這個成本是非常高的：我們去年省吃儉用練模型那也得要花10個億，就梁博新干了10個億。

智駕網：那是不是對以后智駕公司一個存在的標準，可以稱之為有沒有能力去練這個模型版本？

馬陸：你可以認為，如果一個自動駕駛的公司已經完成了端到端范式的切換，數據驅動范式的切換，那它就要遵循數據驅動大模型范式的一些客觀規律，包括但不限于：

第一，模型一定是會越長越大的，它不會越來越小；

第二，它得有持續的資源投入去練這個模型。

一般來說，練模型的資金是有要求的，你不能指望只花三兩個億干出人家10個億、20個億的效果。

當然你說你的效能不一樣，你花了10個億，他說他花了20億，最后看效果好像差不多，這是有可能的，但是你花一兩個億干出人家20億的效果，這完全不可能。

所以說我覺得必要投入也是要的，但是必要投入呢，每個公司都會有自己省錢的訣竅，但是對模型本身研發的投入是重要的，得有這個投入。就像現在搞大模型的公司，能做出堪比這個OpenAi的模型，最后一問你花多少錢，花一個億、兩個億！那怎么可能呢？！不現實！

智駕網：這個高成本是不是會制約很多主機廠自研智駕模型？

馬陸：對于主機廠來說，確實是個投入的問題。

但是我也看到一些主機廠其實他思維變了，像去年小鵬、理想都在往具身公司轉型，他并不認為自己只是做一個單一的汽車應用的公司。

隨著它掌握了這種先進的大模型技術，包括多模態的VLA，多模態的技術，他可以往具身智能轉，具身智能是一個很大的場景；它也可以往物理AI轉，那也是一個大大的風口。

我覺得如果一個傳統的汽車企業，如果他往那個風口轉，那他投AI的資源，可以有一個很好的機會和回報，但如果他只是做汽車，只做智駕，那就看它的規模量了，如果它量足夠大，我覺得這也OK的，如果它的量不夠大，這個賬就很難算了。因為你很難再通過簡單的堆人頭去做智駕了，那數據驅動之后，其實人頭的數量沒那么重要了，你搞了AI之后，基建、優秀的人才以及比較多的算力的訓練，這個很重要。

可能一兩個月還看不出巨大的差異，我覺得最多就一年，這差異就非常明顯了。

05.

轉型移動智能機座是智駕技術外溢的結果

智駕網：那是不是出于這種原因，讓卓馭向移動智能機座轉型？

馬陸：這是一個原因。

我們認識到要在自動駕駛這個垂類，把產品做得極好，只能往數據驅動走。

你往數據驅動走，走著走著發現越走越遠，訓練費用越來越高；范式越來越端，越來越多模態，越來越像基模，你搞著搞著你會發現投入好大呀！

那只做一個自動駕駛的乘用車的L2也好，L3也好，它是必要的、重要的收入來源，但是這個垂類不夠多呀，就像現在的語言大模型，它顛覆的不是一兩個行業，不是只顛覆寫代碼的人，搞文學創作、影視創作的，而是幾百個、幾千個行業都在被顛覆。

你發現模型越搞越大之后，它就越像大模型這個范式，那找到新的垂類應用是很自然的想法，所以我們去年才做了重卡，做了L4的物流，包括L4的Robotaxi，這只是一些我們現在會做的垂類，當然有一些垂類我們也未必會做，但是我們會希望給這個垂類提供一些能力，比方說這種移動的能力。

智駕網：現在這個高性端到4.0，距離這個世界移動基座模型還有多遠？

馬陸：我們內部的版本叫做視覺的基礎模型，在今年北京車展會給大家亮相，我覺得它能夠量產的時間大概是今年秋天的樣子。

智駕網：今年就可以量產？

馬陸：今年秋天。但是它只是我們第一個，我們今年會投入非常之大的資金和資源，去做這種原生的多模態的基礎模型，當然這些相關的工作成果，我估計明年才能亮相。

智駕網：咱們提出移動智能基座指的是一套系統可以同時適配乘用車、無人車、重卡無人物流這種邏輯，那么是不是也可以意味著在不同的交通習慣和規則的全球市場也可以通用，存不存在一套系統適配全球的可能性？

馬陸：你說的非常對，這也是我們致力于往這種多模態，這種通用的移動能力的模型發展的一個內部目標。

今天我們說智能駕駛在中國跑這么好了，能不能在海外跑，你會發現這個事它挺難的，比方去歐洲、去南美、去中東都要當地泛化。

泛化是什么，你要在當地采數據，要在當地標注數據滿足當地的一些合規要求，這個投入至少在一個國家地區大約是30人左右的規模。

但是為什么我們要泛化？為什么我們這個東西到海外它不能像人一樣的？

你去過德國吧，你不用泛化你也能開車，你有啥好泛化的？你可能提前搜個攻略，攻略上說德國的交通燈你注意是長這樣，可能三四頁紙就講完了，你搞明白了，可能就搞個國際駕照翻譯一下，你就在德國就能開車了，你根本不用跑3,000公里泛化，你開的照樣很好。

為什么不能這樣子？全地球有200多個國家地區，為什么每個地方我們去落地這種自動駕駛產品要泛化呢?

我覺得如果方案對，它就不用泛化。

當然行業里也有人探索這個，像英國有一家公司Wayve，它就在探索零泛化，全球能開，那就是按照大模型的思路。

我覺得真正的出海，這個思路是對的，確實能夠在全球都能開，但是這個思路和原來的這種垂類，或者說原來的自動駕駛方案不一樣。

原來過去十幾年我們確實都習慣了，在全球各地去泛化，去當地做本土化，但是這個就是偏專家規則的方案本土化了：專家去了當地看看，當地確實不一樣，就想我代碼咋寫的，回頭改一改。

那模型的角度，應該往更大模型的角度去思考，那泛化這件事情或許在兩三年以后，就沒有這個事情了，更大的模型它天然就泛化，它天然就看過全世界各地的交通法，每個國家交通法可能一個小本本，從語言模態角度就看明白了，它天然明白這些交通法的要求，跟自己固化想象到的一些駕駛風格和要求都習慣了，他知道紅燈要停，在中國可能是紅色的，換個國家可能是橙色的，要停多久，他理解這個規則了，他自然就能做了，就跟咱一樣就不用再泛化。但是這個稍微還有點遠，今天我們在德國做這些本土化的項目，我們還在要泛化，沒辦法，但是我就覺得這種投入還是太大了。

智駕網：剛才提到，比如國內監管需要你把源代碼給他們，如果出海的話遇到各種不同的監管體系，他會要求把代碼給他們嗎？

馬陸：第一，現在確實沒見過這種需求，第二，其實在大模型的時代，代碼這個東西，重要，相對來說也沒那么重要。

我舉個例子，在規則時代，代碼非常重要，因為是專家凝聚了無數心血寫出來的。

在數據驅動的時候，第一，這個模型架構其實全世界都差不多，當然里面會有一些Know How不一樣；第二點，即使今天看上去再先進的模型，不出半年，一般就3個月一定會被反超。

包括語言大模型，去年全年你可以看到神仙打架，每個月都有個No.1，可能年初誰最厲害，后面又沒消息了，又蹦個厲害的，可能沒消息那個半年之后又殺回來了。

這里面其實非常核心的是數據、高質量的數據，以及迭代的速度和能力，能不能有人持續讓模型在迭代，它不要停下進步，以及你有沒有比較多的訓練資源。

代碼我認為它重要，但是它不像老的商業邏輯，就是代碼等于一切。

現在大模型變了。

當然如果說每個國家有不同的審核的要求，第一我們會遵循國內的要求，因為國內有一些明確的要求，比方說國內的這些代碼它不能夠被一些國家隨便審核，像前兩年抖音那個事情，老美要拿他代碼，他也不好搞。

第二點就是，法律法規這塊我們肯定是要遵守的，如果是從法律法規，商業機密角度，我們判斷Ok，那就遵循法律法規來做就好，不過目前沒有見過類似的要求。另外就是目前這個行業發展太快，我覺得也沒啥隱瞞的，值得藏很久的東西。

06.

智駕未來：并非縫縫補補，而是持續突破

智駕網：現在有種觀點認為智駕的技術方向已經明確了，原子彈已經爆炸了，未來五年就是縫縫補補，您認同這種觀點嗎？

馬陸：第一，原子彈確實爆炸了，但是原子彈炸完之后，他不是還有氫彈、中子彈，一堆彈嗎，那些彈還沒來。

第二，原子彈爆炸了之后，大家覺得這是高能物理，完全改變了曾經的那種化學反應，那高能物理有高能套物理的套路，有這個裂變、聚變等等不同方案。

我覺得智駕，客觀上來說它已經跟物理AI很像了，如果你把物理AI拆個分類，它就是物理AI的移動分支，叫移動物理AI吧。

那物理AI客觀上要解決的問題就是它要對環境理解，有任務的規劃能力，這是偏腦力勞動，那腦子想明白了之后，他要做的事情就是要么把自己從某個地方移動到另外一個地方，叫移動能力；要么就是你在一個地方，你去操作周圍的物理世界，抓取、觸摸，去做各種各樣的操作，這其實跟人類也很像。

像所有的動物，最早期都是一些單細胞，那單細胞誰的觸手、鞭毛長，它可能就游得遠，誰運氣好被水這么一吹，可能就保有這個能量，在保有營養的一個地方就長大了，逐漸進化出了更多的移動能力，移動能力有了之后，他就開始進化出操作空間的能力，我覺得物理AI大抵就是往這些方向發展。

對于自動駕駛來說，其實更像物理AI的移動能力，我們也會往這個方向發展，但是你說這個是不是范式就定了，縫縫補補，我覺得沒那么樂觀。

我們現在做自動駕駛這個相關的范式，我覺得比語言大模型的一些多模態方案來看，架構上并沒有人家那么先進，還是有很多可以發展的。

另外，如何解決物理世界的一些具體問題，包括現在世界上很多知名的學者，都在研究這個問題，像葉樂坤、李飛飛等等一些團隊都在研究這個問題，我覺得也沒那么簡單，只不過說，大家確實從化學反應能源這個角度到高能物理了，高能物理我覺得發展個五年、十年也很正常。

智駕網：卓馭是從大疆車載過來的，現在這套物理的大模型如果成熟之后，有沒有可能反哺咱們的無人機？

馬陸：你這個說的非常有意思，如果有一天，真的有一個特別厲害的AI能不能遙控飛機？能不能像人類一樣操作飛機？我覺得完全有可能，它無非就是一個遙控大腦，一個云端大腦，或者說一個AI大腦，人能遙控、人能做的事，它就能做。

人玩飛機不就是遙控那個桿，是吧？你摸索一下它這個規律，你大概知道怎么就不炸，就能飛，那未來有沒有可能有一個通用的AI能干這事？我覺得完全有可能，甚至我覺得10年內一定有可能，一定能落地。

因為它就像語言大模型，一年以前大家看這個東西，覺得只能在三五個領域應用，寫個代碼都費勁，現在一看哇！這么厲害了，啥都能干了，包括影視頻創作，春節的時候Seedance那個視頻生成的出神入化，現在大家也會說已經以假亂真了，再過一年呢？再過兩年呢？那還得了啊！

所以咱這個移動智能基座是不是也涵蓋無人機，我們做移動基座到最后，如果真的做成了，我覺得他關注的是一個移動能力，它是個能力，能力是可以在很多的場景落地的，你可以移動一個大車、小車，卡車、啥車、物流車你都可以移動。

那你說能不能移動別的載體，我覺得完全有可能，但是飛機不是我們的優先級，我們還是先想把汽車的移動搞好，但是從這個市場想象空間來說，我覺得你說的對。

智駕網：就咱們可能這個以后的想象空間可能比大疆還要大？

馬陸：大疆想象空間已經足夠大了。

我們從大疆的平臺出來，依托于大疆的能力，先進到了一個垂類，這個垂類叫做自動駕駛，在這個垂類不斷發展的過程中，我們發現要把這個垂類做好，必須要有一個很強的AI能力，一旦有了很強的AI能力之后，就有個機會，這個機會就是你把一個很強的AI做出來，能夠跨更多的垂類，那你做著做著到最后，其實我覺得我們就更多的像在做一種能力，用AI的能力、移動的能力，這個能力如果做好了之后，其實可以在很多的垂類上做，當然很多的垂類，有些值得自己做，有些可能就不做了，有伙伴做都可以啊。

07.

智駕和AI正相互外溢，模糊邊界

智駕網：你理想中的智駕未來是什么樣子的？

馬陸：我理想中的智駕？那看到底是多少年的未來？

智駕網：5-10年吧！

馬陸：我曾經思考過這么一個問題：智駕能做幾年？

大約是2020年左右，我在想智駕能做幾年，是不是做到2030年就做不了了？會不會做到2035年就一定做完了？我給自己心里答案是應該是吧。

為什么這么想？因為從技術發展的趨勢角度來看，我覺得智駕這個東西，不像是做50年的事情，我覺得它就是像做20年、十幾年的事情。

當時我30歲，加20年我好像還能活很久，我到底干嘛去啊？我確實思考過這個問題。

那現在，我覺得隨著智駕這個事越做越明白，大模型這種方向越來越明確，我們會覺得智駕客觀上就是做一個能力強的、安全的一個物理AI，或者說移動物理AI，但是一旦我們真的能把移動物理在這個領域做好，他也應該能夠做更多的領域，包括我剛剛講到的卡車、物流車，一旦這些領域也能被做好，它其實想象空間是很大的，像你剛剛也講了飛機的事情，那到最后其實你就會發現這事能做很久，能夠一直往下做，追求一個越來越好、超出人類能力的一個物理AI，它是能做非常久的。

智駕網：就是其實可以將一生奉獻于此？

馬陸：我覺得是的，應該能做好多年，我覺得這個看上去不像十年、二十年做出來的，說不定四五十年很正常。

智駕網：那就是說它沒有一個終局？

馬陸：終局啊？我還想象過這個終局到底是個啥，就是物理AI的終局到底是個啥？我在想是不是很像變形金剛？小時候看電影有變形金剛，賽博坦星，硅基生物變形金剛，有一切該有的智能，啥都能干，他平時也不知道為啥要變成個小車是吧？他變成小車的時候肯定是自動駕駛的啊！他不變小車他也是個人，機器人嘛，他可以自主的做任何的事情，他還有他的價值判斷，這個霸天虎、威震天、擎天柱，他們還要打架是吧？

那我覺得那個就很遙遠了，你說是不是最終的頂點，我覺得很像能想象中的頂點，但是我覺得我應該見不著了。

智駕網：也就是智駕沒有一個結束的時候？

馬陸：我覺得技術做著做著就會外溢，就像早年OpenAi發的ChatGPT，它就說這個東西能聊天好厲害，然后就會問這有啥用呢，我為啥要跟你聊天？不明白。

前兩年OpenAi還專門出來辟謠，它不是只能chat，我還能干好多事，又能寫代碼,又能幫你分析文件，它做著做著就從一個單一的東西，變成了只要是腦力勞動，白領工作我全都能干，那地球上可能有10萬個白領能干的腦力勞動行業，那這個都夠它干好多年了。

它一旦把這事干成了，它也一定會想怎么再做點藍領的活，怎么再做點物理世界相關的活，它也一定會做，它做著做著就會越做越大，它一定不會在某個地方停下來，因為你一旦停下來了，別人還在做這個。

舉個例子，今天你說咱們做智駕的，到底是誰在威脅我們？

大家說我們同行競爭很激烈，但是有沒有可能，其實搞大模型的，他說不定搞著搞著他也能干你這個，你說國內搞大模型搞這么優秀的，他有沒有可能做著做著也做物理AI，就順便做一做，他就往這個方向外溢，說不定也能做出來。

我也知道國內有些很大的這種大模型的公司，他也在找一些具身場景的數據，他在嘗試做這個東西，說不定過兩天他也能做出來。

那如果他做出來之后你會發現，那個革命掉方便面的并不是更好的方便面，是美團是吧？創造方便面的這個人當年就是只想找一個很方便的、美味的食物，所以發明了方便面，搞了五六十年了已經，結果有人這個維度更高，什么叫方便的食物？就是給你搞個外賣，客單價更高，所有人都在吃外賣。

智駕網：也就是說智駕和AI的這個邊界其實在越來越來越模糊？

馬陸：越來越模糊，雙方是互相外溢。

智駕和物理AI基本上已經差不多一回事了，物理AI和數字AI語言大模型，我覺得也是在互相外溢，到最后只要你是搞數據驅動，搞AI的，你就逃脫不了這個宿命，你就是在這么巨大的一個AI圈子里面互相外溢。

智駕網：希望我們再過一段時間再來進行對話，十年之后看看智駕的未來。

馬陸：好的。

「對話先鋒人物，記錄人類出行變革。」智駕訪談錄是智駕網面向AI與未來出行領域推出的深度訪談欄目，由智駕網創始人、主編賈紅兵策劃主持。

智駕訪談錄ID:DeepAutoR
合作or新聞線索提供聯系郵箱：
zhubian@autor.com.cn
聯系人微信： buyuziya

合作or新聞線索提供，聯系郵箱：editor@autor.com.cn

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.