網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Minimax M1模型發(fā)布，能否打破大模型市場(chǎng)格局？

2025-06-19 10:59:24　來(lái)源: 競(jìng)合人工智能

北京舉報(bào)

分享至

無(wú)論是M1還是Deepseek等其他模型，誰(shuí)能更好地滿(mǎn)足市場(chǎng)需求，解決實(shí)際應(yīng)用中的問(wèn)題，誰(shuí)就能在這場(chǎng)激烈的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)地位。

近日，Minimax發(fā)布了全新推理模型M1，迅速在大模型領(lǐng)域引發(fā)廣泛關(guān)注。這款模型不僅在參數(shù)規(guī)模上頗為可觀，還在長(zhǎng)文本處理能力和成本控制等方面展現(xiàn)出獨(dú)特優(yōu)勢(shì)，甚至號(hào)稱(chēng)某些性能超越了行業(yè)內(nèi)頗受矚目的Deepseek。在大模型競(jìng)爭(zhēng)日益激烈的當(dāng)下，M1的出現(xiàn)無(wú)疑為市場(chǎng)增添了新的變量。但它究竟實(shí)力幾何，又能否真的撼動(dòng)Deepseek等模型的地位？讓我們深入剖析。

M1的亮點(diǎn)

1. 超長(zhǎng)文本處理能力突破

M1支持最高100萬(wàn)token上下文輸入，這一數(shù)據(jù)達(dá)到DeepSeek R1的8倍，在閉源模型中與谷歌Gemini 2.5 Pro一致，同時(shí)還支持最長(zhǎng)8萬(wàn)Token的推理輸出。在實(shí)際應(yīng)用場(chǎng)景中，長(zhǎng)文本處理能力至關(guān)重要，如處理長(zhǎng)篇學(xué)術(shù)文獻(xiàn)、法律條文、復(fù)雜的技術(shù)文檔等。以學(xué)術(shù)研究為例，科研人員在進(jìn)行文獻(xiàn)綜述時(shí)，常常需要處理大量的學(xué)術(shù)論文，M1的超長(zhǎng)上下文輸入能力，使其能夠一次性讀取和理解更豐富的內(nèi)容，從而為用戶(hù)提供更全面、準(zhǔn)確的信息整合和分析結(jié)果。

M1之所以能夠?qū)崿F(xiàn)長(zhǎng)文本處理能力突破，主要得益于Lightning Attention(閃電注意力)混合構(gòu)架。傳統(tǒng)Transformer架構(gòu)在處理長(zhǎng)文本時(shí)，其注意力機(jī)制主導(dǎo)下的計(jì)算量增長(zhǎng)為平方級(jí)，文本序列越長(zhǎng)，計(jì)算量越發(fā)陡增，這對(duì)性能和成本均為挑戰(zhàn)。而Lightning Attention將全連接注意力拆成兩大部分，一個(gè)是針對(duì)局部上下文整合、采用傳統(tǒng)注意力機(jī)制的“塊內(nèi)”attention，一個(gè)是針對(duì)全局摘要、采用線性注意力的“塊間”attention。這一方案可以減少大量累積性的計(jì)算量，并提高處理速度，使得M1在長(zhǎng)文本處理上具備顯著優(yōu)勢(shì)。

2. 成本優(yōu)勢(shì)顯著

在成本方面，M1展現(xiàn)出了極高的性?xún)r(jià)比。根據(jù)Minimax的技術(shù)報(bào)告，在進(jìn)行8萬(wàn)Token的深度推理時(shí)，M1所需的算力為DeepSeek R1的約30%；生成10萬(wàn)token時(shí)，推理算力約為DeepSeek R1的25%。整個(gè)強(qiáng)化學(xué)習(xí)階段僅使用了512塊英偉達(dá)H800 GPU，耗時(shí)三周，成本為53.5萬(wàn)美元。

Minimax提出的CISPO(Clipped IS-weight Policy Optimization)算法在其中起到了關(guān)鍵作用。這是一種高效率、高穩(wěn)定性的強(qiáng)化學(xué)習(xí)策略，相比于PPO策略實(shí)行token級(jí)別的裁剪更新，它通過(guò)裁剪重要性采樣權(quán)重提升強(qiáng)化學(xué)習(xí)效率，類(lèi)似“序列級(jí)別”裁剪，使其更快實(shí)現(xiàn)收斂，并達(dá)成更少的訓(xùn)練時(shí)間和資源消耗。在AIME(AI-powered Moral Evaluator)等測(cè)試中，CISPO的收斂性均快于DAPO算法和GRPO算法，從側(cè)面證明了其在優(yōu)化成本上的有效性。對(duì)于企業(yè)和開(kāi)發(fā)者而言，成本的降低意味著在相同的預(yù)算下可以進(jìn)行更多的模型訓(xùn)練和應(yīng)用開(kāi)發(fā)，提高了投入產(chǎn)出比，這無(wú)疑是M1吸引市場(chǎng)的一大賣(mài)點(diǎn)。

3. 基準(zhǔn)測(cè)試表現(xiàn)不俗

在多個(gè)業(yè)內(nèi)主流的評(píng)測(cè)基準(zhǔn)中，M1也有著可圈可點(diǎn)的表現(xiàn)。在體現(xiàn)長(zhǎng)文本處理能力的MRCR(4-needle)上，它大幅超越了一眾開(kāi)閉源模型，在AIME 2024、LiveCodeBench、SWE-bench Verified等測(cè)試中，雖略遜色于DeepSeek-R1-0528，但在TAU-bench上有所趕超。這表明M1在特定領(lǐng)域和任務(wù)上具備較強(qiáng)的競(jìng)爭(zhēng)力，并非徒有虛名。尤其是在智能體工具使用（Agentic Tool Use）維度上，從評(píng)測(cè)基準(zhǔn)TAU-Bench (airline)中的表現(xiàn)來(lái)看，目前M1已經(jīng)是市面上在該方面能力最強(qiáng)的模型，為其在相關(guān)應(yīng)用場(chǎng)景的拓展奠定了良好基礎(chǔ)。

尚存在的不足

1. 模型泛化能力待驗(yàn)證

盡管M1在已知的評(píng)測(cè)基準(zhǔn)和特定場(chǎng)景下表現(xiàn)出色，但模型的泛化能力仍有待進(jìn)一步驗(yàn)證。大模型需要面對(duì)現(xiàn)實(shí)世界中千變?nèi)f化的任務(wù)和數(shù)據(jù)，在一些未經(jīng)過(guò)充分訓(xùn)練的領(lǐng)域或場(chǎng)景中，M1是否能夠保持穩(wěn)定且良好的性能表現(xiàn)，還存在疑問(wèn)。例如在一些新興的行業(yè)應(yīng)用，如量子計(jì)算相關(guān)的科普與研究輔助，或是一些小眾但復(fù)雜的藝術(shù)創(chuàng)作領(lǐng)域，M1能否準(zhǔn)確理解和處理相關(guān)信息，目前還缺乏足夠的實(shí)踐檢驗(yàn)。若模型泛化能力不足，其應(yīng)用范圍將會(huì)受到較大限制，難以真正實(shí)現(xiàn)跨領(lǐng)域的廣泛應(yīng)用。

2. 生成內(nèi)容的多樣性與創(chuàng)新性不足

部分用戶(hù)反饋，M1在生成內(nèi)容時(shí)，存在嚴(yán)謹(jǐn)有余而創(chuàng)新和發(fā)散性不足的問(wèn)題。在需要高度創(chuàng)意的任務(wù)中，如創(chuàng)意寫(xiě)作、廣告文案創(chuàng)作等，M1生成的內(nèi)容可能顯得較為保守，缺乏獨(dú)特的視角和新穎的思路。以廣告文案創(chuàng)作為例，優(yōu)秀的廣告文案需要能夠吸引消費(fèi)者的注意力，激發(fā)他們的興趣，而M1生成的文案可能難以達(dá)到這樣的效果，無(wú)法在眾多競(jìng)爭(zhēng)對(duì)手中脫穎而出。在如今強(qiáng)調(diào)個(gè)性化和創(chuàng)新性的市場(chǎng)環(huán)境下，這一缺點(diǎn)可能會(huì)影響M1在內(nèi)容創(chuàng)作相關(guān)領(lǐng)域的應(yīng)用和推廣。

3. 對(duì)硬件環(huán)境的依賴(lài)

雖然M1在算力成本上相較于DeepSeek R1等模型有優(yōu)勢(shì)，但它的運(yùn)行和推理仍然對(duì)硬件環(huán)境有一定要求。對(duì)于一些硬件資源有限的小型企業(yè)或個(gè)人開(kāi)發(fā)者來(lái)說(shuō)，部署和使用M1可能存在一定困難。例如，一些創(chuàng)業(yè)初期的AI公司，可能無(wú)法承擔(dān)購(gòu)買(mǎi)大量高性能GPU的費(fèi)用，這就限制了他們對(duì)M1模型的應(yīng)用和二次開(kāi)發(fā)。而且，當(dāng)硬件環(huán)境無(wú)法滿(mǎn)足M1的最佳運(yùn)行條件時(shí)，其性能表現(xiàn)可能會(huì)大打折扣，無(wú)法充分發(fā)揮出模型的優(yōu)勢(shì)。

4. 市場(chǎng)認(rèn)可度與生態(tài)建設(shè)挑戰(zhàn)

目前，大模型市場(chǎng)已經(jīng)存在眾多參與者，Deepseek、通義千問(wèn)等模型在市場(chǎng)上已經(jīng)積累了一定的用戶(hù)基礎(chǔ)和市場(chǎng)認(rèn)可度，擁有相對(duì)成熟的開(kāi)發(fā)者社區(qū)和應(yīng)用生態(tài)。M1作為后來(lái)者，要在市場(chǎng)中分得一杯羹，面臨著不小的挑戰(zhàn)。在開(kāi)發(fā)者社區(qū)建設(shè)方面，盡管M1發(fā)布即開(kāi)源，但在Github上，M1發(fā)布8小時(shí)后獲得440星，截至目前得到了620星，與國(guó)內(nèi)更受開(kāi)發(fā)者認(rèn)可的通義千問(wèn)和DeepSeek相比，還有較大的提升空間。缺乏廣泛的開(kāi)發(fā)者支持，意味著基于M1的二次開(kāi)發(fā)應(yīng)用可能相對(duì)較少，難以形成完善的應(yīng)用生態(tài)，進(jìn)而影響其市場(chǎng)推廣和長(zhǎng)期發(fā)展。

未來(lái)展望

Minimax M1模型的發(fā)布，無(wú)疑為大模型市場(chǎng)注入了新的活力，其在長(zhǎng)文本處理和成本控制等方面的優(yōu)勢(shì)，使其具備了在市場(chǎng)中競(jìng)爭(zhēng)的實(shí)力。然而，正如任何新興技術(shù)一樣，M1也面臨著諸多挑戰(zhàn)和問(wèn)題，需要在后續(xù)的發(fā)展中不斷優(yōu)化和完善。對(duì)于Minimax來(lái)說(shuō)，接下來(lái)如何提升模型的泛化能力、增強(qiáng)生成內(nèi)容的多樣性與創(chuàng)新性，以及進(jìn)一步降低對(duì)硬件環(huán)境的依賴(lài)，擴(kuò)大市場(chǎng)認(rèn)可度和完善生態(tài)建設(shè)，將是決定M1未來(lái)發(fā)展走向的關(guān)鍵因素。

從市場(chǎng)競(jìng)爭(zhēng)格局來(lái)看，M1的出現(xiàn)加劇了大模型領(lǐng)域的競(jìng)爭(zhēng)，這對(duì)于整個(gè)行業(yè)的發(fā)展而言是有益的。競(jìng)爭(zhēng)將促使各大模型研發(fā)團(tuán)隊(duì)不斷創(chuàng)新和優(yōu)化，推動(dòng)技術(shù)的進(jìn)步，最終讓用戶(hù)和企業(yè)受益。無(wú)論是M1還是Deepseek等其他模型，誰(shuí)能更好地滿(mǎn)足市場(chǎng)需求，解決實(shí)際應(yīng)用中的問(wèn)題，誰(shuí)就能在這場(chǎng)激烈的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)地位。在未來(lái)，我們期待看到M1以及整個(gè)大模型行業(yè)能夠帶來(lái)更多的驚喜和突破，為人工智能的發(fā)展做出更大貢獻(xiàn)。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.