![]()
近日,美國紅杉資本(Sequoia Capital)的播客Training Data對AI社區Hugging Face的聯合創始人、首席科學官Thomas Wolf進行了一次訪談,著重討論了機器人AI技術和物理人工智能(Physical AI)目前的現狀,以及目前開源和閉源模型的爭論。
Wolf已經看到機器人AI模型已經接近于大語言模型的ChatGPT時刻,并在18個月前開始著手推動Hugging Face的機器人AI社區項目LeRobot,從AI軟件領域進入到硬件領域,打造一個開源的機器人AI社區。
Wolf描述了目前機器人AI模型開發的一個“新群體“。這一群體并非機器人專家,而是來自AI算法領域,他們將機器人看作是AI算法的一個物理延伸。而很多創業者和極客購買一些價格幾百美元的機器人,用來探索機器人應用開發的可能性,打磨他們在這一領域的創業想法。
Wolf也指出,目前機器人AI的主要瓶頸在于可供訓練的數據不足。機器人AI模型訓練的數據通常來自兩類渠道:物理世界的訓練行為數據和模擬數據。物理世界的數據面臨的問題是缺乏“多樣性”——機器人反復在同一環境下做訓練,如果換了新的環境,機器人的表現可能就不理想;而在模擬數據方面,Wolf發現了一個新的“可能性”——隨著視頻生成模型越來越強大、無限接近于真實世界時,可以把視頻模型生成的內容用來訓練機器人AI模型。
Wolf還認為,人形機器人并不一定是機器人的最終形態,因為其面臨“價格昂貴”和“社會接受度”兩個方面的挑戰。相比于此,他期待看到未來人形機器人和滿足“長尾需求”的低成本機器人的共存。
Wolf在訪談也中特別提到了宇樹科技,稱其”一直在盡可能地降低人形機器人的成本”,不過,Wolf認為人形機器人想要低于1萬美元、低于一輛汽車的價格,是一件非常困難的事。
以下為「明亮公司」編譯的訪談正文(有刪節):
Huang=Sonya Huang,紅杉資本合伙人
Grady =Pat Grady,紅杉資本合伙人
Wolf =Thomas Wolf,Hugging Face的聯合創始人、首席科學家
![]()
Thomas Wolf(中)來源:Training Data賬號
![]()
機器人AI的「GPT時刻」
Huang:Thomas,上次我們聊天時你提到,今天在機器人領域所處的時刻如同幾年前在Transformer模型和大語言模型領域一樣,你看到了什么?
Wolf:這始于兩年前。我們是在18個月前開始在機器人領域展開工作。在那個時候,一些實驗室取得了突破,就是斯坦福這樣的實驗室,這些團隊開始展示能夠打結、疊衣服、做飯、把東西在平底鍋里拋起來再接住的機器人。所有這些事情在某種程度上,基本只用了很少的數據,但同時也展現了很好的前景,即能夠利用我們看到的那些世界模型之類的東西,這些東西確實從互聯網規模的數據中受益匪淺。所以所有這一切都指向了一個不遠的未來,機器人將以一種新的方式工作。
在我看來,硬件其實早已準備就緒。但缺失的關鍵環節是能夠適應、能夠動態變化的軟件。這就是為什么我們在18個多月前著手開始LeRobot項目。
我們下的巨大賭注是,能否在機器人領域建立一個龐大的社區?之前有一個由業余愛好者(hobbyists)或非常認真地為工廠流水線等制造機器人的人組成的小社區。但在我看來,那只是一個很小的垂直領域。你是否能將這個微小的垂直領域轉變為一個完全水平化的領域?就像現在,每個軟件開發者幾乎都算是一個人工智能研究者。他們都想知道大語言模型是如何工作的,如何訓練它們,這里有一個非常平滑的過渡,數以億計的開發者變得越來越具備人工智能意識(AI-aware),我認為未來還有一個潛在的過渡,就是所有這些人也可能在某種程度上成為機器人專家(roboticist),只要你給他們工具。
Huang:跟我說說LeRobot是什么?
Wolf:當然,LeRobot是我們試圖在機器人領域重現Transformer模型庫成功的嘗試。這個想法是擁有一個每個人都會使用的中央庫,它會以一種非常簡單、易于訪問的方式,匯集所有最新的技術、人們用來高效訓練機器人的最新算法、他們用來訓練的數據集,并將其與執行器(actuators)即硬件部分連接起來。而LeRobot試圖融合的正是這三個方面:策略模型、數據集和硬件。
Grady:Hugging Face在機器人領域的角色如何變化?對于在物理世界中進行構建的人來說,Hugging Face扮演的角色與它在數字世界中為人們扮演的角色是相同還是不同?
Wolf:我們的目標是扮演同樣的角色,從非常高的層面來說,就是建立社區,把人們帶入這個理念中,這可以是開源的。它不僅僅是你消費的東西,更是你可以調整、訓練、控制、部署在任何你想要的地方的東西。實際上,“部署在任何你想要的地方”在機器人領域甚至更重要。
因為在未來機器人無處不在的世界里,你很可能希望很多模型能在本地運行。因為如果你的機器人失去了Wi-Fi連接之類然后撞到墻上,或者撞到你的孩子,比一個大語言模型出問題要更麻煩。所以機器人領域的安全問題,我認為是一個很好的理由,讓你可能真的希望能夠不依賴于遠程API,而是讓模型盡可能地靠近硬件。對于所有的安全問題和機器人技術的未來需求而言,我們的角色可能比在LLM領域更加重要。
Huang:LeRobot社區的規模?
Wolf:我其實應該查一下最新的數字,因為它正在指數級增長,目前大概六千到一萬人。我們幾個月前舉辦了一場全球黑客松,在六大洲有一百個活動地點。對我們來說,主要的指標是我們可以衡量Hub(注:即Hugging Face Hub,目前該平臺上有約170萬個模型、40萬個數據集)數據集數量,我們看到了這種指數級增長,我認為這是一個非常好的跡象,表明我們走在正確的路線上。
目前可用的硬件仍然很像業余愛好者的硬件,比如3D打印的機械臂,到處都還連著電線。這就是為什么從今年夏天開始,我們想推出更大眾市場的硬件,就是那種不僅能吸引那些習慣于到處插電線的黑客和技術愛好者,也能吸引所有人的東西,比如能吸引家庭用戶看起來更精致的東西。
Huang:LeRobot社區中開發者的畫像是怎樣的?我很好奇這與傳統上構建基于經典控制系統的人有何相同或不同之處。
Wolf:有幾種類型的畫像。第一種是傳統的機器人專家。他們肯定想使用人工智能,所以他們中的許多人知道如何構建硬件,知道他們能用什么。但他們一直對軟件棧的局限性感到沮喪,所有的最優控制模型等等都極大地限制了你能做的事情。所以所有這些人非常樂意地加入了這股潮流。我們看到了與Transformer模型領域相同的效應,即許多學術實驗室開始使用LeRobot。因為它對所有學生來說是一個非常好的切入點。這個群體增長非常迅速。
第二個群體在我看來更有趣,他們是那些原本不搞機器人技術,但因為他們對人工智能感興趣,而機器人技術看起來像是人工智能的物理呈現。他們就想進入機器人領域。這些人包括軟件開發者,甚至只是對機器人技術感興趣的人。
舉個例子,很多投資者實際上購買了SO100機械臂,只是為了親身體驗,理解這個機器人到底是什么、它能做什么。因為它看起來如此平易近人,你拿到機械臂,軟件只是一些Python代碼,用一點點“氛圍編程”(vibe coding),你就可以很容易地調整或控制它。我們看到有些人,他們可能不是純粹的技術人員,但他們想了解機器人領域正在發生什么,他們就用LeRobot作為入門的開始。
![]()
SO100的升級版SO101機械臂(來源:Wolf的社交媒體)
Huang:所以你可以用“氛圍編程”來控制機器人。
Wolf:是,這確實是我的目標,對于新的機器人Reachy Mini,我絕對希望這成為最簡單的使用方式之一。我希望我的孩子們能夠用“氛圍編程”來編寫機器人的行為。
Grady:你認為我們現在處于機器人市場整體成熟度的哪個階段?我們什么時候會在機器人世界迎來一個“ChatGPT時刻”?
Wolf:我也在找,有時我也稱之為“iPhone時刻”。在消費領域,第一個殺手級應用可能出現在大多數人都有“我想要一個機器人”想法的時刻。而在企業級市場,情況比較復雜,某些行業已經有很多機器人了,汽車制造業是最好的例子。
第二個方面是,目前機器人仍存在很多可靠性的的挑戰,比如,它們是否足夠可靠地部署在零售領域?
但我更感興趣的第三部分實際上是娛樂和偏向教育的領域,在這些領域,關于“我要那個3000美元是因為它更可靠性”這類問題就不那么突出了,所以你可以用一個親民的機器人,比如Reachy Mini,它的定價是300美元,這可會變成沖動消費。你買它,不確定它是否能用。但對于這個價格,我們想發現的是——在更偏向娛樂、趣味、通過物理互動學習人工智能,而不是僅僅在聊天機器人上編程——是否存在巨大的潛力。我認為這方面完全沒有被探索過。
![]()
開源機器人Reachy Mini(來源:Hugging Face網站)
我過去有一些嘗試,比如麻省理工學院媒體實驗室(MIT Media Lab)的Jibo,它們的價格很高,可能超過一千美元。更重要的是,我認為那時的軟件非常有限,所以你買一個機器人會很有趣,但你可能只有五到十種行為,一旦你全部試過,就結束了。
而Reachy Mini的目標是真正把它做成幾乎像智能手機一樣的東西。它自帶一些行為,但因為你可以調整它,人們可以創造新的行為并分享,還可以接入所有新的視覺語言模型、語音模型、聊天模型,可能性幾乎是無限的。
這就像打開了一扇門,基本上是在重建iPhone的應用商店,所以這是我非常興奮的地方。這最后一部分仍然是一個很大的賭注,因為那里什么都還沒有,沒有真正的跡象來證明(可能會實現)。主要跡象就是所有這些社區的指數級增長,這讓它看起來很有可能。
Huang:所以你把Reachy Mini看作是九十年代機器狗的重生,人們可以真正地玩耍和實驗,在家里擁有機器人伴侶。
Wolf:這是一個很大的賭注。但昨天我其實在Tech Barbecue科技大會上討論機器人技術時,有人作為投資人告訴我,你知道嗎?已經有非常非常多的初創公司在我們的機器人基礎上進行構建了。他們想創造一些東西,他們有一個關于可以自動化的手動任務(manual task)的想法,或者他們有一個關于可以在物理世界中做些什么的想法。然后他們就來用這個機器人,他們采用我們已經發布的基礎構建模塊,那只是一個機器人,一個我們設計得非常簡單的SO100機械臂,基本上是最便宜的機械臂,價格在100美元。他們已經開始嘗試圍繞這個來創業或做一些事。
Reachy Mini在某種程度上也是為此設計的。它是一個非常簡潔、簡單的機器人,如果你想改造它,如果你覺得“嘿,我有一個關于這個的商業想法,但我需要一個機器人來與人互動”,你就可以拿這個來用,你就可以開始構建你的想法了。這就是Hugging Face的底層精神,你帶來了所有這些平臺,所有這些基礎構建模塊,讓人們可以在上面創造出真正了不起的東西。所以,機器人技術對我們來說是同樣的目標。
![]()
機器人AI的挑戰與世界模型
Huang:我想談談數據作為瓶頸的問題。我認為語言和機器人技術之間的一大區別是,公共互聯網上有數萬億的token可以用來訓練大語言模型,但這種動態數據在機器人領域并不存在。實際上,我認為這正是Hugging Face在生態系統中可以扮演更有趣角色的地方,即在去中心化的數據集策劃和創建方面。談談在LeRobot的數據集方面正在發生什么。
Wolf:這也超級有趣我認為,機器人領域有幾個挑戰,而主要的挑戰在于數據,就是數據不夠。有一些方法可以利用互聯網上的視頻作為訓練數據,但這非常有限。
在某些方面,我們或許可以使用模型。但如果你想自動化一個任務,除了記錄某人或者機器人可能正在執行這個任務之外,沒有別的辦法。
我認為這里有一個可能性和一個局限性。主要的局限性是,你可以自己記錄大量的任務,但通常你會非常缺乏多樣性。你基本上只能訓練一個機器人在你的房間里,在一切看起來都一樣的情況下,把某件事做得很好。但一旦你把它放到隔壁房間,那里的墻可能是綠色的而不是紅色的,機器人就很難泛化了。這是主要的局限性。
所以我們對Hub的想法是,每個人都可以記錄數據集,如果我們能設法激勵他們分享數據,那么我們或許可以建立一個非常多樣化的數據集。一個多地點的數據集,它會極其多樣化。
此外,希望它也能非常大。那是一個長期目標,我們希望這能有所幫助。但我們嘗試做的另一個更直接的事情是,也直接與社區的參與者合作。我們發布了幾個數據集,也想幫助他們發布數據集。
我們認為在機器人領域,一個很好的方面是很多人最終都想賣硬件,所以他們實際上有能力,甚至比大語言模型領域更能負擔得起將一部分軟件作為開源分享——如果這能推動整個領域的發展的話。畢竟最終那并不是他們直接賣的東西,所以這正是我試圖說服許多機器人公司去做的事情,而且令人驚訝的是他們中的許多人似乎對此很感興趣。
Huang:非常有趣。你發推文說“世界模型日”,世界模型開源領域正在發生什么?這對機器人領域的發展有何影響?
Grady:我可以接著問一下,世界模型現在有什么“時機已到”的誘因嗎?因為感覺它們最近才開始涌現。
Wolf:有趣的是,你感覺就像是幾個團隊實際上已經獨立在這方面工作了幾個月,然后恰好現在發布了,因為當你和他們所有人交談時,他們并沒互相抄襲。
我猜其中一個原因是真正好的圖像生成技術的出現,并且最終理解了如何修復“六指”之類的問題,基本上就是為圖像獲得一個更可靠、更連貫的世界模型。這也很自然地被移植到了視頻上,所以我們現在也看到了一些非常酷的視頻模型。
我在這個領域交談過的很多創始人都說,他們也得益于開源視頻模型生成或開源圖像生成的進步,他們基本上拿過來這些視頻生成模型然后對它們進行微調,然后訓練它們能夠對某些輸入做出反應,這也是我們在機器人領域做的事情。
這兩件事之間有很多共同點,而且似乎效果相當好。所以你開始擁有這種在我看來非常有趣、全新的體驗,你實際上有了一個可控的影片,它既是照片般逼真的,又能對你輸入的動作做出非常連貫的反應。
無論是四處移動,還是要求它添加一些東西,比如添加一個騎手、一座城堡、一輛行駛的汽車,你都會看到這個東西反應得非常好。我認為這里有很多潛在的應用,顯然,除了娛樂之外,實際上是一些可能全新的娛樂形式,一些我們從未見過的東西,這可能是第一次創造出一種真正新的虛擬娛樂形式。
但也有很多在商業中的應用,以及如何能互動的東西,而其中一個應用就是為機器人生成更多數據。
生成數據只有兩種方式,一種是在現實世界中記錄,我認為這仍然非常有趣,另一種是模擬它。
令人驚訝的是,在模擬方面,我們并沒有看到很多沒有看到真正的突破,所以也許這是我相當長一段時間以來在模擬生成數據方面看到的第一個突破。
Huang:是的,我很高興看到一些進展,甚至像DeepMind用Genie所做的那樣,訓練他們的具身機器人,你相信人形機器人是最終形態嗎?
Wolf:這方面爭論不休。可以肯定的是,我現在對嘗試其他形態更感興趣。
人形機器人的主要問題,我認為有兩個:第一個是,它總是相當昂貴,僅僅因為你需要大量的馬達,而機器人的所有價格都在于執行器,那總是占價格標簽的70%左右。所以當你有60個執行器時,你的賬單就很長了。所以很難把人形機器人的價格降到一輛汽車以下。而我認為一輛車的價格已經是一個相當高的要求了,如果你買一個和汽車價格一樣的東西,你確實期望從中獲得很多價值,對吧?所以這就是為什么我們正在探索更小、更小的機器人,比如只有一個手臂或者只有一個會動的頭之類的東西。有可能我們將來能獲得更便宜的人形機器人,就一直在嘗試,他們一直在努力降低價格,也有很多公司以此為目標。
但我認為,要把它降到一萬美元以下會非常困難。當然,人形機器人的好處在于,一旦你解決了人形機器人的問題,你就能同時解決很多任務,所以如果你解決了人形機器人的問題,你可以做所有人類能做的事情,這非常令人興奮。
但核心問題是,你真的需要解決人形機器人的問題嗎?就我而言,我更希望看到一個由各種不同形態組成的“星系”,我也覺得其中一些比人形機器人可愛得多。
而另一方面,我認為對于社會接受度而言,你要直接面對那種“恐怖谷”,它看起來很像你,動作也很像你。所以我曾認為這對社會接受度會是一個很大的限制。但老實說,我已經見過很多Unitree(宇樹科技)的機器人了,我不知道你怎么樣,但在某個時候你就開始忽略它們了。所以我也更有信心,也許我們對此過于擔心了,機器人領域可能也是如此。也許在某個時候,一旦我們開始看到一些機器人,人們就會非常非常容易地接受它們。
Huang:好的,所以我們將看到人形機器人的場景。
Wolf:我的意思是,我們的目標是讓Reachy Mini和我們的小型機器人運行得非常好,以至于在某個時候,我們都會回過頭來,以我們已經做過的方式,逐步地將社區帶到我們身邊,一起制造人形機器人。
Huang:如果你想象十年后的世界,你認為我們身邊會有多少機器人?比如80%是人形機器人,然后20%是這種硬件和場景多樣性的長尾(機器人)?
Wolf:是的,我希望看到第二種選擇,因為我認為那是一個我們的生活中有更多機器人的選擇。我真的不太希望看到的是一個未來是機器人變成一種精英化的產品——如果你有錢,你家里就有三臺機器人,如果你沒錢,你就沒有。Hugging Face也一直關注廣大的社區,所以我們關心這一點。
因此,我更興奮地看到許多不同形態的機器人,它們對很多人來說都是可以負擔得起的。其中一些更便宜,一些比那單一的人形機器人更昂貴,所以我會說,在Hugging Face,我們試圖實現的未來是第一種。我也認為這更有趣,因為在某種程度上,你也在限制自己,就像大語言模型一樣。如果你只是想讓它們模仿人類,那是一回事,但如果你試著想,也許它們能做一些人類做不到的事情,那在某種程度上也更有趣。
Huang:你認為我們正在走向一個擁有大型基礎模型的世界嗎?這些模型可以做任何事,然后通過幾個提示就能迅速適應任何新領域?還是你認為你社區里的開發者會從一個小的基礎模型開始,然后做大量的自有數據收集和定制化來適應他們的領域?
Wolf:我認為我們會越來越多地看到兩者并存。比如說,如果我們看Hugging Face上的下載量,我們既看到非常大的、最先進的模型被下載,它們通常太大而無法在本地筆記本電腦上運行。但我們也看到一些最受歡迎的模型實際上尺寸正好,可以在筆記本電腦上快速運行。所以我們看到了這兩種模式,我認為,隨著領域的成熟,我們將越來越多地看到這一點,就是你不是非此即彼。
只是根據你的需要,你可能會在本地使用,也可能不會。我認為帶有路由器的GPT-5就是一個很好的例子。也許最大的模型、最長的推理鏈并不是所有問題的答案,你實際上需要聰明地選擇你想要的那個。所以它可以在一個路由器后面,但也可以就在本地。你可以在這里運行一些模型。它們可能非常有用,而且我們越來越懂得如何訓練出真正有用的模型。但是當你需要一些更復雜的東西,當你需要很長時間的反思時,你就會轉向更大的模型。
![]()
開源與閉源之爭:五年前難以想象中國公司會是開源擁護者
Grady:過去幾年非常流行的一個敘事是開源與閉源,你認為哪個會贏?而就在最近幾周,OpenAI的模型現在也出現在Hugging Face上了。所以我很好奇這該如何解讀,它可能暗示了開源與閉源的未來,或者它們將如何協同工作。
Wolf:我們非常高興歡迎他們回來,他們曾經在這。我做的第一個模型,以及我們從一家游戲公司轉型為開源平臺的原因,就是GPT-1。很多人都不記得了,但它非常有趣,因為它主要是在小說和言情小說上訓練的。所以當你把兩個角色放進去讓它續寫時,他們總會以某種方式墜入愛河,我還有點懷念那個版本。然后,然后谷歌采納了這個想法,并在維基百科上進行了訓練,這增加了很多世界知識,然后將其擴展到GPT等等。但在那個時候,他們非常非常支持開源。我認為開源,就像在軟件領域一樣,我認為兩種解決方案只會共存,而有公司同時做開源和閉源,谷歌在相當長一段時間里就是一個例子,有Gemma系列和Gemini系列。
![]()
Hugging Face“本周流行中可以看到不少中國的開源模型(來源:Hugging Face網站)
還有一些有趣的時刻,我有時聽說某個Gemma模型實際上非常好,以至于比閉源模型還要好。所以他們不得不去閉源它。所以目前這兩者之間的界限可以說相當模糊。還有一些來挑戰的新玩家,主要是在中國,但我想我們也會開始在美國看到一些新的基礎模型團隊。我認為我們可能也會在美國看到一些挑戰,我認為界限將保持相當模糊。而且兩種模式都會存在,性能上只有微小的差異。
我認為,目前的主要原因,老實說,在此時此刻,我認為我們并不完全處于一個人工智能的“成本節約”時代。
對于很多參與者來說,轉向開源因為可以節省成本,但這并不是他們最重要的事情。所以他們現在轉向開源通常是因為他們關心數據隱私,他們希望能夠調整他們擁有的模型,也許有一個新想法,想去實現。
我所期望的是,隨著我們進入一個更成熟的市場,那么成本以及能否在更快的硬件或其他類型的硬件上運行,然后。能夠擁有模型和模型運行的整個技術棧,將變得越來越重要。
所以我認為,就像在軟件領域一樣,從長遠來看,開源對于許多應用、許多用途來說是一種制勝的解決方案。但我們仍然處于一個平衡的階段。
Huang:隨著這些模型不斷挑戰前沿,并且出現了閉源模型,Hugging Face在大語言模型生態系統中的角色是如何演變的?我記得以前你可以在Hugging Face上下載小型的BERT模型并在本地運行,現在我們正走向大到無法在消費級硬件上運行的模型,你的業務是如何演變的?你如何看待Hugging Face角色的演變?
Wolf:令人驚訝的是,我去年年底做統計時發現,BERT模型仍然被大量使用。開源一個令人驚訝的有趣方面是它的韌性,就是一旦你有了一個在預測中確實有效的東西,你可能不想被迫轉向新的GPT……開源對我們來說長期的興趣也是提供非常穩定的基礎,就像你構建了某樣東西,你知道它會一直存在,你可以把它作為一個非常穩定的基礎。總的來說,我認為在社區中,我們的角色已經從可能自己推動很多事情、推動我們的庫、推動我們的早期產品,逐漸轉變為更多地賦能整個社區,所以我們現在與社區的許多參與者合作。……
Huang:你提到最近中國有很多開源模型,這是為什么?西方開放模型的發展狀況如何?
Wolf:是的,這是我認為過去兩年發生的最令人驚訝的事情——中國會成為開源的擁護者,誰能在2020年預測到呢?
我兩周前去拜訪了他們,試圖在實地更好地了解情況。事情就是這樣——這(中國市場)是一個內部競爭非常非常激烈的市場。那里有很多非常優秀的團隊,這在某種程度上讓我想起了硅谷。人們工作極其努力。
令人驚訝的是,他們競爭的一個方面體現在開源方面,是希望成為最開放的模型提供者,所以,他們為自己的開源而感到非常自豪。其中一些公司曾經嘗試轉向閉源,然后馬上就體驗到閉源帶來負面影響——我想主要是在招聘上,人們不想再去那里工作了,所以他們又重回開源。所以現在這(開源的思維)已經相當根深蒂固了。所以我會希望繼續下去,也希望有更多的團隊加入,因為我看到了很多……在 GPT-5 的發布會上,你會看到其中一些成員來自清華大學,對吧?我們知道這里的團隊,也有一部分是中國成員。所以他們有非常非常強大的人才,他們已經在思考訓練出最好的模型。
有趣的是,我看到西方最近又回到了開源。OpenAI決定回來了,現在我們只等Anthropic也許會開源他們的第一個模型,所以我想是時候試著請他們參與進來了。我會說,現在的情況對于開源來說是相當不錯的,但就像《星球大戰》里的絕地武士,(開源)從來都不是穩贏。我們必須繼續推動,我們必須繼續高舉開源的旗幟。
Grady:是什么推動了西方開源的復興?
Wolf:當你在某種程度上沒有什么可失去的時候,開源總是一個好的解決方案。當你是一個新團隊時,比如你創建了一家新公司,你想迅速崛起——這就是Mistral的秘訣。
對中國公司來說,幾乎沒有人會使用中國的API,所以他們無論如何都不會在西方賣API。所以在某種程度上,他們通過開源他們的模型,在西方市場沒有什么可失去的。
所以我認為有這個因素在起作用。其結果是,當沒有人開源時,就像一個市場,有人就有興趣來填補這個空缺,說我們將成為開源玩家。所以Meta就是那個開源玩家,當大家都停止開源的時候。我覺得總會有這樣的事情,當一些人停止開源時。那么實際上就出現了一個成為新的頂級開源參與者的空缺,然后就會有人想填補這個空白。
Huang:你提到西方公司不會使用中國的模型或者中國的API,那么,你是說西方公司實際上愿意還是不愿意使用中國的開源模型?
Wolf:我認為更多該關注的是,人們都希望有一種更好的方式來理解模型的安全性。以及,很多公司一直在問的問題,就是如何保證這個模型總是表現良好——我們知道這真的很難,即使是GPT,有時你問草莓的單詞 (strawberry)里有多少個R,它就是表現得很糟糕,這是一個普遍需要盡快解決的問題,并且有幾個團隊肯定在為此努力。
![]()
AI for Science:當下大模型仍無法提出對的問題
Grady:談談開放科學(Open Science)。
Wolf:我們像人類一樣構建大語言模型,但如果一個AI模型能看到紅外線、能看到我們看不到的某些輻射,這就是人類做不到的事情,所以它已經是超人類的了。而對于科學來說,這實際上也很有趣——很多用于科學的AI模型在某種程度上已經是超人類的了,它們要么可以看到不同的模態,要么預測一些人類根本無法企及的東西。我認為這是一個很好的基礎,可以讓我們跳出人類能做什么的局限去思考。
Grady:你對開放科學充滿熱情已經有一段時間了。什么是開放科學?Hugging Face在其中扮演什么角色?你對它的熱情來自哪里?
Wolf:開始于很久以前。所以在我成為律師之前,我曾是一名物理學研究員,我研究超導材料。令人驚訝的是,在超導材料領域,很多偉大的研究都是蘇聯時期的蘇聯人完成的,而這些蘇聯研究人員發明理論的方式與西方世界截然不同,所以他們有一些非常棒的想法和一些非常有趣的東西,但我必須找到這些理論是怎么被發明的,在前蘇聯的信件中追蹤它們,其中一些信件還是俄語的。所以從那時起,我感到獲取知識是困難的,如果我能讓它變得更容易,那就能解鎖很多非常酷的東西。如果我能找到那個方程來自哪里,并真正能夠閱讀那篇文章,那就太牛了。
所以當我進入計算機科學領域時,我發現了arXiv、我發現了開源。我當時覺得這太酷了,所有東西基本上都是免費的。每個人都在分享,且文獻都是英語的,基本上所有人都能讀。我對此非常興奮——直到我開始嘗試復現一篇DeepMind的論文。
我發現這里有一個限制,因為人們只發表他們想發表的東西,但他們并不會告訴你所有的訣竅。所以當你嘗試復現時,你發現它根本行不通。所以對我來說,開放科學就是這種延伸,給人們開源模型讓他們可以在上面構建東西是很好的。授人以漁就是我們想做的。從長遠來看,這將成為一種基礎技術,基本上應該像物理學一樣,是每個人都可以通過讀書來學習的東西,比如你今天想學習廣義相對論,你可以讀一本書,你就能了解它。
人工智能,或者說訓練一個智能物體或人造物的竅門,也應該成為每個人都應該知道的東西,這是一個長期的事情。短期的目標是,如果我們教人們如何訓練出色的模型,那么他們就會把出色的模型帶到Hub上,然后我們就有更多出色的內容可以提供。所以這也有點像提供內容,如果你提供出色的模型,就很好。我們為此寫了非常長的博客文章,其中一些甚至變成了書,關于如何在一千個GPU上進行訓練,如何平衡負載,以及如何做所有這些并行化的事情。我們寫的另一篇很長的博客文章是關于如何制作一個高質量的數據集。
所以我們制作了一個叫做Fine Web的數據集來免費訓練模型,它使用了許多最近的模型,比如Qwen模型。然后我們還寫了我們是如何構建這個數據集的,我們是如何過濾它的,當你想構建好的數據來訓練模型時,理解什么是重要的。所有這些我認為都是相輔相成的,這基本上就是把更好、更好的開源AI模型帶到Hugging Face的一種方式。
Huang:我想回到你關于物理學和超導的觀點,很多通用人工智能(AGI)實驗室相信,AI顛覆科學其實并不遙遠。已經有一些令人興奮的發現了,我認為到目前為止在數學領域已經有了令人興奮的證據,然后可能會擴展到物理學、材料科學,你認為我們會看到這些模型在科學發現上帶來一個拐點嗎?你認為開源在推動這一進程中將扮演什么角色?
Wolf:這里有一些炒作是好事,能驅動別人去做事情。但有時我們高估了正在發生的事情,數學就是一個很好的例子。曾經有這樣的想法,AI正在為一些數學理論做出新的證明,這就像在發明新的科學。我認為作為一名科學家,這真的是看待科學的錯誤方式。原因是我曾是一個糟糕的科學家,我可以談談這個。我曾是一個非常好的學生。所以當你給我一個問題時,我總是很確定我能找到證明,我能找到答案。但是我知道這個問題有解,所以我只需要填補空白,然后抓住一些我知道的東西,把它們組合在一起。
當我成為一名研究員時,我發現我是一個相當糟糕的研究員,因為我基本上無法提出正確的問題。所以如果有人問我說,你能證明這個定理嗎?我能做到。但如果有人問,現在在數學領域探索什么是有趣的?我基本上毫無頭緒。
在科學領域,如果你想做出重大的突破,你需要做的主要事情是,你需要提出正確的問題。你需要找到一種方法,提出一個能開啟一個全新研究領域的問題。比如,諾貝爾獎通常是頒給一個開啟了全新研究領域的人,因為這個人只是提出了正確的問題。比如,也許光速應該是恒定的,讓我們來探索這意味著什么,這意味著我們實際上可以創造出廣義相對論,然后我們可以從中推導出黑洞。
我認為大語言模型現在這種有品味地提出正確問題的能力上表現非常糟糕。但這并不意味著我們不能用它們做一些非常酷的事情,但我現在看待它們的方式更像是非常有用的助手和加速器。我希望看到的是一個AI會說,“嘿,我有一個關于如何超越光速的想法”,但為此你不能只寫下如何超越光速的答案。
你必須提出正確的問題,我們應該對今天的理論做出什么改變?我們今天應該做什么?我們應該重新考慮什么,才能發明出一些突破性的東西?這就是我的觀點。
Grady:你認為現在AI世界中有趣的問題是什么?或者說,人們應該問但沒問的問題是什么?
Wolf:這也是一個問題。它與我們經常談論的一個東西有關——這種討好(sycophantic)、即AI模型總是同意你的傾向。我認為,一個好的研究員實際上是不會認同很多人(的觀點)。我以前的教授是一位諾貝爾獎得主,他表達觀點的方式非常不友好,但我認為這是其中的一部分,你必須非常有主見。所以,找到一種方式推動這些模型有更強的觀點,或者在他們的觀點中有品味,對于科學來說將是關鍵。
當然,這會基于深度學習和大語言模型,它可能涉及其他訓練它們的方式、思考它們的方式。有幾個人在朝著這個方向探索,但探索的人并不多。
Huang:當你展望十年后的世界時,Hugging Face在其中扮演什么角色?你認為你的社區中有多少人在用大語言模型和機器人構建?以十年的時間跨度來思考很難,但你認為十年后的世界會是什么樣子?
Wolf:十年會非常非常不同。我希望看到的是,在十年后一個世界里基本上每個人都覺得他們可以用AI來構建,而不僅僅是消費AI。但他們覺得自己可以成為這件事的參與者,有點像——過去有很多為我們生成和創作的媒體,然后我們進入了現在的時代,每個人實際上都能夠創作、都是媒體。
我希望AI也是一樣,就是一個像軟件開發者社區一樣非常龐大的社區,每個人都可以用AI創造東西,他們覺得這只是他們工具箱里的另一個工具。他們可以寫代碼,但他們也可以訓練一個模型,也可以調整模型。
作者:MD
出品:明亮公司
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.