無(wú)論是M1還是Deepseek等其他模型,誰(shuí)能更好地滿(mǎn)足市場(chǎng)需求,解決實(shí)際應(yīng)用中的問(wèn)題,誰(shuí)就能在這場(chǎng)激烈的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)地位。
![]()
近日,Minimax發(fā)布了全新推理模型M1,迅速在大模型領(lǐng)域引發(fā)廣泛關(guān)注。這款模型不僅在參數(shù)規(guī)模上頗為可觀,還在長(zhǎng)文本處理能力和成本控制等方面展現(xiàn)出獨(dú)特優(yōu)勢(shì),甚至號(hào)稱(chēng)某些性能超越了行業(yè)內(nèi)頗受矚目的Deepseek。在大模型競(jìng)爭(zhēng)日益激烈的當(dāng)下,M1的出現(xiàn)無(wú)疑為市場(chǎng)增添了新的變量。但它究竟實(shí)力幾何,又能否真的撼動(dòng)Deepseek等模型的地位?讓我們深入剖析。
M1的亮點(diǎn)
1. 超長(zhǎng)文本處理能力突破
M1支持最高100萬(wàn)token上下文輸入 ,這一數(shù)據(jù)達(dá)到DeepSeek R1的8倍,在閉源模型中與谷歌Gemini 2.5 Pro一致,同時(shí)還支持最長(zhǎng)8萬(wàn)Token的推理輸出。在實(shí)際應(yīng)用場(chǎng)景中,長(zhǎng)文本處理能力至關(guān)重要,如處理長(zhǎng)篇學(xué)術(shù)文獻(xiàn)、法律條文、復(fù)雜的技術(shù)文檔等。以學(xué)術(shù)研究為例,科研人員在進(jìn)行文獻(xiàn)綜述時(shí),常常需要處理大量的學(xué)術(shù)論文,M1的超長(zhǎng)上下文輸入能力,使其能夠一次性讀取和理解更豐富的內(nèi)容,從而為用戶(hù)提供更全面、準(zhǔn)確的信息整合和分析結(jié)果。
M1之所以能夠?qū)崿F(xiàn)長(zhǎng)文本處理能力突破,主要得益于Lightning Attention(閃電注意力)混合構(gòu)架。傳統(tǒng)Transformer架構(gòu)在處理長(zhǎng)文本時(shí),其注意力機(jī)制主導(dǎo)下的計(jì)算量增長(zhǎng)為平方級(jí),文本序列越長(zhǎng),計(jì)算量越發(fā)陡增,這對(duì)性能和成本均為挑戰(zhàn)。而Lightning Attention將全連接注意力拆成兩大部分,一個(gè)是針對(duì)局部上下文整合、采用傳統(tǒng)注意力機(jī)制的“塊內(nèi)”attention,一個(gè)是針對(duì)全局摘要、采用線性注意力的“塊間”attention。這一方案可以減少大量累積性的計(jì)算量,并提高處理速度,使得M1在長(zhǎng)文本處理上具備顯著優(yōu)勢(shì)。
2. 成本優(yōu)勢(shì)顯著
在成本方面,M1展現(xiàn)出了極高的性?xún)r(jià)比。根據(jù)Minimax的技術(shù)報(bào)告,在進(jìn)行8萬(wàn)Token的深度推理時(shí),M1所需的算力為DeepSeek R1的約30%;生成10萬(wàn)token時(shí),推理算力約為DeepSeek R1的25%。整個(gè)強(qiáng)化學(xué)習(xí)階段僅使用了512塊英偉達(dá)H800 GPU,耗時(shí)三周,成本為53.5萬(wàn)美元。
Minimax提出的CISPO(Clipped IS-weight Policy Optimization)算法在其中起到了關(guān)鍵作用。這是一種高效率、高穩(wěn)定性的強(qiáng)化學(xué)習(xí)策略,相比于PPO策略實(shí)行token級(jí)別的裁剪更新,它通過(guò)裁剪重要性采樣權(quán)重提升強(qiáng)化學(xué)習(xí)效率,類(lèi)似“序列級(jí)別”裁剪,使其更快實(shí)現(xiàn)收斂,并達(dá)成更少的訓(xùn)練時(shí)間和資源消耗 。在AIME(AI-powered Moral Evaluator)等測(cè)試中,CISPO的收斂性均快于DAPO算法和GRPO算法,從側(cè)面證明了其在優(yōu)化成本上的有效性。對(duì)于企業(yè)和開(kāi)發(fā)者而言,成本的降低意味著在相同的預(yù)算下可以進(jìn)行更多的模型訓(xùn)練和應(yīng)用開(kāi)發(fā),提高了投入產(chǎn)出比,這無(wú)疑是M1吸引市場(chǎng)的一大賣(mài)點(diǎn)。
3. 基準(zhǔn)測(cè)試表現(xiàn)不俗
在多個(gè)業(yè)內(nèi)主流的評(píng)測(cè)基準(zhǔn)中,M1也有著可圈可點(diǎn)的表現(xiàn)。在體現(xiàn)長(zhǎng)文本處理能力的MRCR(4-needle)上,它大幅超越了一眾開(kāi)閉源模型,在AIME 2024、LiveCodeBench、SWE-bench Verified等測(cè)試中,雖略遜色于DeepSeek-R1-0528,但在TAU-bench上有所趕超 。這表明M1在特定領(lǐng)域和任務(wù)上具備較強(qiáng)的競(jìng)爭(zhēng)力,并非徒有虛名。尤其是在智能體工具使用(Agentic Tool Use)維度上,從評(píng)測(cè)基準(zhǔn)TAU-Bench (airline)中的表現(xiàn)來(lái)看,目前M1已經(jīng)是市面上在該方面能力最強(qiáng)的模型,為其在相關(guān)應(yīng)用場(chǎng)景的拓展奠定了良好基礎(chǔ)。
尚存在的不足
1. 模型泛化能力待驗(yàn)證
盡管M1在已知的評(píng)測(cè)基準(zhǔn)和特定場(chǎng)景下表現(xiàn)出色,但模型的泛化能力仍有待進(jìn)一步驗(yàn)證。大模型需要面對(duì)現(xiàn)實(shí)世界中千變?nèi)f化的任務(wù)和數(shù)據(jù),在一些未經(jīng)過(guò)充分訓(xùn)練的領(lǐng)域或場(chǎng)景中,M1是否能夠保持穩(wěn)定且良好的性能表現(xiàn),還存在疑問(wèn)。例如在一些新興的行業(yè)應(yīng)用,如量子計(jì)算相關(guān)的科普與研究輔助,或是一些小眾但復(fù)雜的藝術(shù)創(chuàng)作領(lǐng)域,M1能否準(zhǔn)確理解和處理相關(guān)信息,目前還缺乏足夠的實(shí)踐檢驗(yàn)。若模型泛化能力不足,其應(yīng)用范圍將會(huì)受到較大限制,難以真正實(shí)現(xiàn)跨領(lǐng)域的廣泛應(yīng)用。
2. 生成內(nèi)容的多樣性與創(chuàng)新性不足
部分用戶(hù)反饋,M1在生成內(nèi)容時(shí),存在嚴(yán)謹(jǐn)有余而創(chuàng)新和發(fā)散性不足的問(wèn)題。在需要高度創(chuàng)意的任務(wù)中,如創(chuàng)意寫(xiě)作、廣告文案創(chuàng)作等,M1生成的內(nèi)容可能顯得較為保守,缺乏獨(dú)特的視角和新穎的思路。以廣告文案創(chuàng)作為例,優(yōu)秀的廣告文案需要能夠吸引消費(fèi)者的注意力,激發(fā)他們的興趣,而M1生成的文案可能難以達(dá)到這樣的效果,無(wú)法在眾多競(jìng)爭(zhēng)對(duì)手中脫穎而出。在如今強(qiáng)調(diào)個(gè)性化和創(chuàng)新性的市場(chǎng)環(huán)境下,這一缺點(diǎn)可能會(huì)影響M1在內(nèi)容創(chuàng)作相關(guān)領(lǐng)域的應(yīng)用和推廣。
3. 對(duì)硬件環(huán)境的依賴(lài)
雖然M1在算力成本上相較于DeepSeek R1等模型有優(yōu)勢(shì),但它的運(yùn)行和推理仍然對(duì)硬件環(huán)境有一定要求。對(duì)于一些硬件資源有限的小型企業(yè)或個(gè)人開(kāi)發(fā)者來(lái)說(shuō),部署和使用M1可能存在一定困難。例如,一些創(chuàng)業(yè)初期的AI公司,可能無(wú)法承擔(dān)購(gòu)買(mǎi)大量高性能GPU的費(fèi)用,這就限制了他們對(duì)M1模型的應(yīng)用和二次開(kāi)發(fā)。而且,當(dāng)硬件環(huán)境無(wú)法滿(mǎn)足M1的最佳運(yùn)行條件時(shí),其性能表現(xiàn)可能會(huì)大打折扣,無(wú)法充分發(fā)揮出模型的優(yōu)勢(shì)。
4. 市場(chǎng)認(rèn)可度與生態(tài)建設(shè)挑戰(zhàn)
目前,大模型市場(chǎng)已經(jīng)存在眾多參與者,Deepseek、通義千問(wèn)等模型在市場(chǎng)上已經(jīng)積累了一定的用戶(hù)基礎(chǔ)和市場(chǎng)認(rèn)可度,擁有相對(duì)成熟的開(kāi)發(fā)者社區(qū)和應(yīng)用生態(tài)。M1作為后來(lái)者,要在市場(chǎng)中分得一杯羹,面臨著不小的挑戰(zhàn)。在開(kāi)發(fā)者社區(qū)建設(shè)方面,盡管M1發(fā)布即開(kāi)源,但在Github上,M1發(fā)布8小時(shí)后獲得440星,截至目前得到了620星,與國(guó)內(nèi)更受開(kāi)發(fā)者認(rèn)可的通義千問(wèn)和DeepSeek相比,還有較大的提升空間。缺乏廣泛的開(kāi)發(fā)者支持,意味著基于M1的二次開(kāi)發(fā)應(yīng)用可能相對(duì)較少,難以形成完善的應(yīng)用生態(tài),進(jìn)而影響其市場(chǎng)推廣和長(zhǎng)期發(fā)展。
未來(lái)展望
Minimax M1模型的發(fā)布,無(wú)疑為大模型市場(chǎng)注入了新的活力,其在長(zhǎng)文本處理和成本控制等方面的優(yōu)勢(shì),使其具備了在市場(chǎng)中競(jìng)爭(zhēng)的實(shí)力。然而,正如任何新興技術(shù)一樣,M1也面臨著諸多挑戰(zhàn)和問(wèn)題,需要在后續(xù)的發(fā)展中不斷優(yōu)化和完善。對(duì)于Minimax來(lái)說(shuō),接下來(lái)如何提升模型的泛化能力、增強(qiáng)生成內(nèi)容的多樣性與創(chuàng)新性,以及進(jìn)一步降低對(duì)硬件環(huán)境的依賴(lài),擴(kuò)大市場(chǎng)認(rèn)可度和完善生態(tài)建設(shè),將是決定M1未來(lái)發(fā)展走向的關(guān)鍵因素。
從市場(chǎng)競(jìng)爭(zhēng)格局來(lái)看,M1的出現(xiàn)加劇了大模型領(lǐng)域的競(jìng)爭(zhēng),這對(duì)于整個(gè)行業(yè)的發(fā)展而言是有益的。競(jìng)爭(zhēng)將促使各大模型研發(fā)團(tuán)隊(duì)不斷創(chuàng)新和優(yōu)化,推動(dòng)技術(shù)的進(jìn)步,最終讓用戶(hù)和企業(yè)受益。無(wú)論是M1還是Deepseek等其他模型,誰(shuí)能更好地滿(mǎn)足市場(chǎng)需求,解決實(shí)際應(yīng)用中的問(wèn)題,誰(shuí)就能在這場(chǎng)激烈的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)地位。在未來(lái),我們期待看到M1以及整個(gè)大模型行業(yè)能夠帶來(lái)更多的驚喜和突破,為人工智能的發(fā)展做出更大貢獻(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.