337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

“百模大戰”,夯實基礎模型,方是大模型發展之路

0
分享至

今年以來,ChatGPT引領了全球人工智能的新一輪創新浪潮。以中國為例,據《2023—2024年中國人工智能計算力發展評估報告》顯示,截至2023年10月,中國累計發布兩百余個大模型(包括基礎和行業類),已進入“百模大戰”的新時代,在彰顯我國人工智能領域創新實力和發展潛力的同時,對如何選擇和走出具有中國特色的大模型發展之路也提出了挑戰。



心急吃不了熱豆腐,“全能”基礎大模型才是基石

提及國內的“百模大戰”,可謂是百花齊放,但從屬性上分,基本為基礎和行業模型兩大類,出于盡早進入市場,嘗試盡快實現商業變現的需求,國內大模型的發展有向行業模型傾斜的趨勢,甚至出現了針對基礎模型不要“重復造輪子”的論調。事實真的如此嗎?

2021年8月,李飛飛和100多位學者聯名發表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,國際上稱為預訓練模型,即通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型。

相較于小模型或者所謂行業模型(針對特定場景需求、使用行業數據訓練出來的模型),基礎模型優勢主要體現在以下幾個方面。

首先是涌現能力,它指的是模型規模超過某個參數閾值后,AI效果將不再是隨機概率事件。在通用領域,參數量越大,智能通常涌現的可能性就越大,AI準確率也會更高。在專用垂直領域,基礎模型裁剪優化后更容易獲得精確的效果;

其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數據中學習,能夠總結不同場景、不同業務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規模落地人工智能應用提供可能;

最后是研發效率提高。傳統小模型研發普遍為手工作坊式,高度依賴人工標注數據和人工調優調參,研發成本高、周期長、效率低。大模型則將研發模式升級為大規模工廠式,采用自監督學習方法,減少對特定數據的依賴,顯著降低人力成本、提升研發效率。

此外,基礎大模型還具有同質化特性,即基礎模型的能力是智能的中心與核心,它的任何一點改進會迅速覆蓋整個社區,反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎大模型作為小模型基礎的重要性。

以當下流行的GPT-4為例,其實它就是一個能力強大的基礎大模型,沒有行業屬性,通用智能是其最核心的部分,對于所謂的小模型或者面向行業場景的行業模型來說,基礎大模型結合行業數據和行業知識庫,就可以在行業中實現更高效的落地,這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發展基礎大模型,構建技能模型,進而落地行業模型,符合大模型自身技術發展規律的必由之路。

所謂心急吃不了熱豆腐。當我們在基礎大模型這塊基石尚不牢固,盲目追求所謂落地的技能和行業模型的速度,很可能是重復造輪子,同時,鑒于目前以GPT為代表的基礎模型迭代很快,性能提升明顯,屆時,我們的技能和行業模型還面臨技術過時(行業和技能模型還不如基礎模型)的風險而事倍功半。

夯實基礎模型,面臨高質量數據與算法創新挑戰

既然我們理解了基礎模型基石的技術邏輯和作用,夯實基礎模型自然是重中之重。但對于國內來說,夯實基礎大模型卻面臨不小的新挑戰。

首先是缺少多樣化、高質量的訓練數據。

以GPT為例,在數據多樣化方面,GPT-1使用的訓練語料以書籍為主、如BookCorpus等;GPT-2則使用了如Reddit links等新聞類數據,文本規范質量高,同時又包含了部分人們日常交流的社交數據;進入GPT-3,模型的數據規模呈數十倍增長,Reddit links、Common Crawl、WebText2、Wikipedia等數據集的加入,大大提高了數據的多樣性;GPT-4階段更引入了GitHub代碼、對話數據以及一些數學應用題,甚至增加了多模態數據。

在數據質量方面,以GPT-3模型為例,其訓練需要的語料75%是英文,3%是中文,還有一些西班牙文、法文、德文等語料集,這些學習語料可通過公開數據(如維基百科、百度百科、微博、知乎等)、開源數據集、網頁爬取(訓練GPT-3爬取了31億個網頁,約3000億詞)、私有數據集(如OpenAI的WebText數據集,收集了Reddit平臺上的800萬篇高贊文章,約150億詞)等方式獲取。這些語料中,英文語料公開數據更多、質量更高。

需要說明的是,盡管上述已是高質量的數據,但其來源于維基百科、書籍及學術期刊等的高質量數據也僅占其數據集的17.8%,但其在模型訓練中的權重卻占到了40%,數據質量精益求精和重要性可見一斑。



對此,有業內分析認為,當高質量數據量到達一定臨界值的時候,將會無限拉近不同算法帶來的準確率差距,某種程度上會決定模型訓練的質量,不僅讓訓練變得更加高效,同時可以大幅削減訓練成本。

相比之下,中文開源高質量數據少,特別是構建基礎大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時,國內專業數據服務還處于起步階段,可用于人工智能模型訓練的經過加工、清洗、標注的高質量數據集還相對匱乏。

由此可見,缺少高質量、多樣化的訓練數據已成為國內基礎模型訓練的核心痛點之一,也是最大的挑戰。

除了高質量的數據之外,縱觀當前國內的大模型,基本都是基于Transformer架構,技術原理業內都相當清楚,但為什么ChatGPT就是比其他大模型表現得更好?由于GPT-3之后,OpenAI的所有模型沒有再開源,GPT-4的運行機制是什么,國內企業仍無從得知,但在業內看來,其核心理應是算法的創新和優化。

這里以Transformer架構為例,如上述,目前學術界大部分的工作都是圍繞如何提升Transformer的效率展開,硬件結構也都是圍繞如何優化Transformer的方式而設計,雖然其為業內帶來了創新突破,但仍然存在某些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創新的發展方向提出了挑戰,即想從架構上對Transformer進行創新,需要的是勇氣與探索能力。

對癥下藥,開源、開放的源2.0帶來了什么?

俗話說:挑戰與機遇并存,而將挑戰化為機遇的方法就是對癥下藥。而在這方面,浪潮信息日前發布的源2.0基礎大模型頗值得我們拿來探究。

例如在應對我們前述的缺少多樣化、高質量的訓練數據挑戰方面,源2.0的數據來源包含三個部分,分別是業界的開源數據、從互聯網上清洗的數據和模型合成的數據。浪潮信息的模型團隊不僅對2018年至2023年的互聯網數據進行了清洗,從總量12PB左右的數據中僅獲取到約10GB的中文數學數據,而為進一步彌補高質量數據集的匱乏,還基于大模型構建了一批多樣性的高質量數據,為此,浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數據集生成流程,大幅提高了數據集問題的多樣性。同時,輔以基于單元測試的數據清洗方法,讓高質量數據集的獲取更加高效,進一步提高訓練效率。



具體來說,在構建高質量的數學和代碼數據時,團隊會隨機選取一批種子數據,然后對其進行擴充,讓大模型生成一批合適的問題,再把它們送到模型里,從而產生合適的答案。并將其補充到訓練數據集當中。

不僅如此,即便是基于大模型構建的高質量數據,浪潮信息還會通過額外構建的數據清洗流程,力求將更高質量的社群、代碼數據應用到模型的預訓練過程中。可見源2.0對于數據的質量也是精益求精。而未來,浪潮信息的模型團隊還會利用自己的模型生成更高質量的數據,形成數據循環,持續迭代并提升大模型的能力。

同樣在應對算法挑戰方面,源2.0也進行了重大創新,在我們上述的Transformer結構中完全替換了自注意力層,創新性地提出新型Attention結構,即局部注意力過濾增強機制LFA(LocalizedFiltering-based Attention),通過先強化相鄰詞之間的關聯性,然后再計算全局關聯性的方法,模型能夠更好地處理自然語言的語序排列問題,對于中文語境的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。



而消融實驗的結果顯示,相比傳統注意力結構,LFA模型精度提高了3.53%;在最終的模型訓練上,基于LFA算法的源2.0-102B模型,訓練288B token的train loss為1.18,相比之下,源1.0 245B模型訓練180B token的train loss為1.64。也就是說,從源1.0到源2.0,train loss降低了28%。

除上述之外,在算力上,源2.0采用了非均勻流水并行的方法,綜合運用流水線并行+優化器參數并行+數據并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環境提供了一種高性能的訓練方法。

值一提的是,從當前大模型算力建設、模型開發和應用落地的實際需求出發,浪潮信息還開發出了全棧全流程的智算軟件棧OGAI,以提供完善的工程化、自動化工具軟件堆棧,幫助更多企業順利跨越大模型研發應用門檻,充分釋放大模型創新生產力。

所謂眾人拾柴火焰高,這很好地詮釋了開源、開放的理念。

具體基礎大模型,不可否認的事實是,當前中國做大模型的公司與OpenAI仍存在較大差距,而開源能夠釋放整個社區的智慧,一起進行生態和能力的建設,這也是我們除了上述數據和算法的創新外,盡快追趕國外領先公司基礎大模型的可行路徑。

以浪潮信息近期公布的源大模型共訓計劃為例,其針對開發者自己的應用或場景需求,通過自研數據平臺生成訓練數據并對源大模型進行增強訓練,訓練后的模型依然在社區開源。開發者只需要提出需求,說清楚具體的應用場景、對大模型的能力需求以及1~2條示例,由源團隊來進行數據準備、模型訓練并開源。

由此可見,這種共享底層數據、算法和代碼的共訓計劃,有利于打破大模型孤島,促進模型之間協作和更新迭代,并推動AI開發變得更加靈活和高效。同時,開源開放有利于推進“技術+行業”的閉環,以更豐富的高質量行業數據反哺模型,克服數據分布偏移可能造成的基礎大模型性能下降,打造更強的技術產品,加速商業化進程。

寫在最后:綜上,我們認為,“百模大戰”,基礎大模型為基,構建技能模型,進而落地行業模型,理應成為國內大模型現在和未來發展的共識,更是具有中國特色的大模型發展之路,而開源、開放的源2.0基礎大模型的探索與實踐只是開始!

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
從三聚氰胺到優思益:十七年過去,我們還在原地打轉

從三聚氰胺到優思益:十七年過去,我們還在原地打轉

鳳眼論
2026-04-02 15:35:27
同是三缸仿賽,張雪820RR與雅馬哈R9,定位差距一目了然!

同是三缸仿賽,張雪820RR與雅馬哈R9,定位差距一目了然!

阿芒娛樂說
2026-04-05 04:12:17
伊朗:霍爾木茲海峽收費分5級 年收超千億美元!

伊朗:霍爾木茲海峽收費分5級 年收超千億美元!

新浪財經
2026-04-04 13:31:15
浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

阿器談史
2026-04-02 13:31:44
英媒:美國正輸掉與伊朗的戰爭,這確實是美霸權終結的象征性標志

英媒:美國正輸掉與伊朗的戰爭,這確實是美霸權終結的象征性標志

玫瑰與花海
2026-04-05 07:58:32
深夜突發!特朗普,重大警告!猛烈拋售潮來襲,高盛最新發聲

深夜突發!特朗普,重大警告!猛烈拋售潮來襲,高盛最新發聲

數據寶
2026-04-05 08:24:40
女籃4月下旬開啟長集訓!放棄3名國手,召回5名實力球員是上策

女籃4月下旬開啟長集訓!放棄3名國手,召回5名實力球員是上策

冷桂零落
2026-04-04 21:37:37
2019年,滴滴司機鐘元被執行死刑,死前害怕不已,跪地不停懺悔

2019年,滴滴司機鐘元被執行死刑,死前害怕不已,跪地不停懺悔

南宗歷史
2026-03-17 01:08:53
臺統一方案或出乎意料:若美國發動代理人戰爭,中國將啟天津模式

臺統一方案或出乎意料:若美國發動代理人戰爭,中國將啟天津模式

獨坐山巔前
2026-04-04 01:41:45
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
內塔尼亞胡:中俄朝再怎么反美,也沒像伊朗那樣喊“美國去死”!

內塔尼亞胡:中俄朝再怎么反美,也沒像伊朗那樣喊“美國去死”!

阿龍聊軍事
2026-03-31 19:31:00
姆巴佩離譜2失單刀+帶球出邊線 近5場0球遭怒批:領袖氣質遠輸C羅

姆巴佩離譜2失單刀+帶球出邊線 近5場0球遭怒批:領袖氣質遠輸C羅

我愛英超
2026-04-05 06:56:39
厲害了伊朗,敢摧毀美軍在中東所有軍事基地

厲害了伊朗,敢摧毀美軍在中東所有軍事基地

陸棄
2026-04-05 08:30:03
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
清明前后,這8種蔬菜不要買?菜販子的“真心話”到底該不該信

清明前后,這8種蔬菜不要買?菜販子的“真心話”到底該不該信

江江食研社
2026-04-04 20:30:08
祖墳管幾代人?誰的墳對你影響最大?看看百歲老道長怎么說的

祖墳管幾代人?誰的墳對你影響最大?看看百歲老道長怎么說的

千秋文化
2026-03-30 20:30:53
這個新瓜,把人惡心吐了!

這個新瓜,把人惡心吐了!

觀察鑒娛
2026-04-02 10:58:59
抽簽后摩根曾說阿森納抽到好簽,被南安普頓官方“挖墳”

抽簽后摩根曾說阿森納抽到好簽,被南安普頓官方“挖墳”

懂球帝
2026-04-05 06:53:42
河北金某已被執行死刑,遺子至今下落不明,撫養權成了難題

河北金某已被執行死刑,遺子至今下落不明,撫養權成了難題

孤城落日
2026-04-05 01:43:32
辭掉北京的工作,他把100多件伊朗國寶在戰火中帶來了中國

辭掉北京的工作,他把100多件伊朗國寶在戰火中帶來了中國

介知
2026-04-04 03:10:44
2026-04-05 09:16:49
孫永杰的ICT評論 incentive-icons
孫永杰的ICT評論
專注獨家、獨立的觀點
414文章數 6234關注度
往期回顧 全部

科技要聞

“沒中國,美國機器人就動不了”

頭條要聞

伊朗媒體:美軍感到絕望 試圖炸死在伊朗失聯飛行員

頭條要聞

伊朗媒體:美軍感到絕望 試圖炸死在伊朗失聯飛行員

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

教育
手機
房產
藝術
數碼

教育要聞

老師講古詩中的聚焦對比法,你還知道哪些詩句用這種對比?

手機要聞

四款Ultra旗艦參數比拼:小米、榮耀、vivo、OPPO,誰的堆料更狠

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

藝術要聞

毛主席83歲時寫下的13個鉛筆字,網友爭議其美丑!

數碼要聞

蘋果新AirPods Pro曝光,內置紅外攝像頭、升級 H3 芯片

無障礙瀏覽 進入關懷版