階躍星辰：模型層突破多模態(tài)和推理能力后，Agent元年終于到了

2025-02-24 21:56:01　來源: 四木相對論

北京舉報

分享至

三天前，“大模型六小虎”中最低調(diào)的「階躍星辰」對外舉辦了一場大秀——“Step UP生態(tài)開放日”在上海徐匯開幕。

今年1月，它在6天里連發(fā)了6個模型，一口氣把語言、語音、推理、圖片理解、視頻生成全都覆蓋，稱得上是低調(diào)的卷王。

這次活動上，這個大模型卷王更是集中對外集中秀了一波生態(tài)肌肉。

一進(jìn)入會場，一排排AI應(yīng)用“檔口”整齊排列。這里不只有階躍自家產(chǎn)品“躍問”，還有一大堆合作開發(fā)者的應(yīng)用產(chǎn)品，包括前段時間刷屏的“貍譜”，小火過一段期間的“陌生人鬧鐘”，“林間聊愈室”以及“心光AI”、“物圓”，還有公益項(xiàng)目“小胰寶”等等。

*來路演的AI應(yīng)用們，四木相對論攝影

圍繞自己的大模型建立起“應(yīng)用生態(tài)圈”，是階躍過去一年的核心話題之一。

到了2025年，隨著模型層多模態(tài)和慢思考（推理）能力的提升，階躍的生態(tài)故事會重點(diǎn)發(fā)力Agent。

這也是階躍星辰創(chuàng)始人、CEO姜大昕這次亮相強(qiáng)調(diào)的核心觀點(diǎn)。

“為什么很多人認(rèn)為2025年會是Agent元年？因?yàn)锳gent 爆發(fā)的兩大必要條件，多模態(tài)的能力和慢思考能力都在2024年得到突破。”他說。

一年發(fā)布11款模型，還在開發(fā)視覺推理模型

先來看看階躍過去一年的“成績單”：

2024年一年發(fā)布了11個模型，覆蓋語音識別、語音生成、多模態(tài)理解、圖像及視頻生成的全面能力。
2025年1月，Step R-mini發(fā)布，是Step系列的首款推理模型。
2月18日，階躍又發(fā)布了開源視頻生成模型Step-Video-T2V以及開源語音交互模型 Step-Audio。姜大昕介紹，Step-Video-T2V參數(shù)量達(dá)到 300 億，是目前全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成大模型； Step-Audio的參數(shù)量更是達(dá)到1300 億。
最新的兩個開源大模型發(fā)布后，就有 21 個開源模型生態(tài)接入，海外各平臺曝光量近千萬，收藏速度遠(yuǎn)超同類知名模型。
Step-1V多模態(tài)理解大模型位列LMSYS 榜單國內(nèi)第一，Step-1o Vision 在國內(nèi)權(quán)威的大型模型評估平臺“司南”(Opencompass)多模態(tài)評測實(shí)時榜單中，位列第一。

值得注意的是，不同于DeepSeek開源側(cè)重于文本和推理的大模型，階躍星辰開源的是兩款多模態(tài)模型。

這或許和階躍星辰堅(jiān)持的AGI路線圖有關(guān)。

早在一年前階躍初次亮相時，姜大昕就規(guī)劃了實(shí)現(xiàn)AGI的路線圖，包括模擬世界、探索世界和歸納世界三個階段：

在模擬世界階段，訓(xùn)練模型的主要范式是模仿學(xué)習(xí)，學(xué)習(xí)的主要目標(biāo)是各種模態(tài)的表征，包括從聲音、文本、圖像、視頻一直到4D時空的物理世界。
下一步是培養(yǎng)模型能夠解決復(fù)雜問題的能力，即邏輯推理能力。這里需要AI學(xué)會拆解問題并不斷探索，類似于人腦系統(tǒng)2的模式，也就是慢思考的方式，而強(qiáng)化學(xué)習(xí)是其中最主要的訓(xùn)練方法。
最后是機(jī)器能夠自主學(xué)習(xí)、主動地發(fā)現(xiàn)物理規(guī)律，這樣AI就可以在生物核能材料、量子計(jì)算等領(lǐng)域和人類科學(xué)家一起創(chuàng)新。

目前，階躍也正走在這一路線上。在發(fā)布多模態(tài)模型之后，這家公司的推理模型也有新的進(jìn)展。

關(guān)于推理模型，姜大昕透露：

階躍開發(fā)了 Open-Reasoner-Zero，這是階躍與清華聯(lián)合完成的「首個從預(yù)訓(xùn)練模型直接進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)的開源實(shí)現(xiàn)」，以約4%的訓(xùn)練迭代次數(shù)超過相同尺寸模型采用DeepSeek-R1-Zero方案的分?jǐn)?shù)。在開發(fā)過程中，階躍還發(fā)現(xiàn)一個有趣的現(xiàn)象，即只用最基本的PPO算法和基于規(guī)則的獎勵函數(shù)，就可以激發(fā)模型進(jìn)行長思維鏈的思考，并有效提高它的推理能力。
階躍內(nèi)部正在開發(fā)一款視覺推理模型，可以解決復(fù)雜問題，具備慢思考的能力。如何把強(qiáng)化學(xué)習(xí)的方法引入視覺領(lǐng)域，實(shí)現(xiàn)在視覺空間下慢思考正是階躍的努力方向。

Agent落地智能終端

模型的提升勢必讓應(yīng)用受益。從2023年到2025年，最被期待的AI Native產(chǎn)品是Agent。

完成了模型層的初步打磨，階躍也把Agent看作重點(diǎn)。

目前，階躍將Agent分為兩個大類：垂類Agent和智能終端Agent。這兩個方向上，它選擇與“生態(tài)伙伴”合作開發(fā)。

階躍將智能終端Agent分為五個等級，1-3等級從低到高依次能解決簡單任務(wù)、綜合任務(wù)、復(fù)雜任務(wù)，進(jìn)而可主動發(fā)起任務(wù)，最后實(shí)現(xiàn)情感陪伴。

目前，階躍在智能終端Agent方向主要布局汽車、手機(jī)、具身智能、IoT等關(guān)鍵應(yīng)用場景。

一系列在今天發(fā)布的重要合作展示出階躍的Agent生態(tài)：

AI+車：階躍星辰將與吉利汽車集團(tuán)、千里科技合作推動“AI+車”的深度融合。千里科技董事長印奇也出席了這次圓桌論壇。
手機(jī)終端：基于階躍Step系列多模態(tài)模型，OPPO 推出了「一鍵問屏」和「一鍵全能搜」兩大AI 手機(jī)功能：用戶可以通過小布助手App與AI 交互，實(shí)現(xiàn)拍照問答、文檔問答，識屏問答等。同時，用戶也可以對小布助手直接下達(dá)指令，讓AI 可以獨(dú)立進(jìn)入各種App端完成任務(wù)，比如一鍵搜所有。
具身智能：與智元機(jī)器人合作，共同探索 AI+具身機(jī)器人應(yīng)用場景。階躍還透露將為智元機(jī)器人的開發(fā)提供千億級token。
IoT 終端：階躍星辰通過生態(tài)開放的方式，與包括TCL在內(nèi)的一系列IoT平臺和設(shè)備廠商協(xié)作，推動設(shè)備間智能升級和體驗(yàn)連接。

垂類Agent多點(diǎn)開花

在垂直類Agent方面，圍繞金融財經(jīng)、內(nèi)容創(chuàng)作、新零售、數(shù)字人等行業(yè)，階躍也有不小的進(jìn)展。

比如，2024年，階躍星辰和上海報業(yè)旗下界面財聯(lián)社達(dá)成深度戰(zhàn)略合作，聯(lián)合創(chuàng)辦大模型科技公司財躍星辰。

目前，財躍星辰已經(jīng)面向金融行業(yè)推出“財躍大模型” ，它還面向 C 端推出財富小助理「AI小財神」，為用戶提供AI數(shù)據(jù)挖掘、AI 對話和財報解讀等功能。

階躍還宣布和瑞幸咖啡、通用GPU及算力系統(tǒng)提供商天數(shù)智芯達(dá)成戰(zhàn)略合作，從算力、基座模型到新零售，希望閉環(huán)技術(shù)研發(fā)和消費(fèi)場景。

在內(nèi)容領(lǐng)域，它也和中廣天擇達(dá)成了合作。中廣天擇介紹，合作主要集中在微短劇、動漫等熱門應(yīng)用場景，內(nèi)容包括共同開發(fā)數(shù)字視頻垂類大模型、搭建數(shù)據(jù)要素治理平臺、智能生產(chǎn)平臺等。

在DeepSeek “掀翻牌桌”的沖擊下，國內(nèi)其他頭部大模型近期都在調(diào)整策略。

現(xiàn)在看來，階躍邁出的一步是布局Agent生態(tài)。

尤其當(dāng)完善整個模型層的布局后，階躍星辰的Agent落地故事或許已擁有一個扎實(shí)開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.