張書樂 人民網(wǎng)、人民郵電報專欄作者
測試世界第一還不是無敵,
還需實戰(zhàn)和消費場景天下第一。
世界第一的紀錄,正在被中國大廠接連刷新。
一個大廠刷完,下一個大廠接著刷。
中國AI正在包攬全球AI競賽各個賽場上的前三甲。
現(xiàn)在的關(guān)鍵賽點,是到底這些AI,是柯南,還是毛利小五郎。
![]()
26日晚間,阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,在多項關(guān)鍵性能基準測試中,千問表現(xiàn)超過了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等頂尖模型,刷新全球紀錄,進一步拓展了人工智能系統(tǒng)的推理性能邊界。
阿里方面表示,Qwen3-Max-Thinking總參數(shù)超萬億,進行了更大規(guī)模的強化學習后訓練,并通過推理技術(shù)的系列創(chuàng)新,最終完成模型性能的大幅飛躍。
其還大幅增強了自主調(diào)用工具的原生Agent能力,模型可像專業(yè)人士一樣邊用工具邊思考。
同時,模型幻覺也大為降低,為解決真實復雜任務打下基礎(chǔ)。
目前,普通用戶可通過千問PC端和網(wǎng)頁端試用新模型,千問APP也即將接入,所有用戶都可免費體驗。
此外,28日,全球最大開源社區(qū)Hugging Face最新數(shù)據(jù)顯示,阿里千問大模型開源數(shù)量突破400個,是全球AI開源社區(qū)采用率最高的模型。
麻省理工學院報告指出,2025年,中國研發(fā)的開源大模型全球下載量占比達17.1%,首次超越美國(15.8%),躍居世界第一。
值得注意的是,1月15日,阿里在杭州舉辦了千問產(chǎn)品發(fā)布會,宣布全面接入淘寶、支付寶、飛豬、高德、盒馬等阿里生態(tài)業(yè)務。
阿里千問 APP 化身智能體“顧問”,支持一句話點外賣、購物、買機票、訂酒店,引發(fā)廣泛關(guān)注。
![]()
Chatbot (聊天機器人)的戰(zhàn)爭已經(jīng)基本結(jié)束。
下一步競爭的焦點是轉(zhuǎn)向“會干活”的AI Agent(智能體),愈發(fā)成為行業(yè)共識。
目前,阿里、騰訊、字節(jié)等大廠均已布局智能體。
值得注意的是,盡管前景廣闊,但行業(yè)智能體的規(guī)模化應用仍面臨多重障礙。
對于Qwen3-Max-Thinking的正式發(fā)布,最值得關(guān)注的點是什么?
如何看Qwen3-Max-Thinking的行業(yè)應用前景?
目前,國內(nèi)同類產(chǎn)品的發(fā)展狀況和市場情況是怎樣的?
Qwen3-Max-Thinking的面世,是否有助于阿里千問市場拓展?
對此,網(wǎng)聯(lián)社梁偉和書樂進行了一番交流,本猴以為:
測試世界第一還不是無敵,還需實戰(zhàn)和消費場景天下第一。
具體到阿里千問這次破紀錄,也不能盲目樂觀。
推理能力需要實戰(zhàn)檢測,僅僅靠跑分不能證明領(lǐng)先。
![]()
推理水平到底是柯南,還是毛利小五郎,都需要大眾實踐來檢驗。
同時,這個記錄能保持幾天,會把哪家中國大廠所打破,還很難說。
真正的崛起,還是要如此前更新去切入電商場景那樣,通過大模型推理,讓精準消費距離和購物選擇的難度再一次扁平化,才是最強。
誠然,阿里的電商大數(shù)據(jù),就是千問的私有數(shù)據(jù)池,也是友商攻不破的護城河。
不過,未來,阿里電商體系的地位,決定了千問核心競爭力的大小,唯有千問通過功能服務反哺阿里電商,才是真正的應用價值。
總體來說,2025年開始,中國人工智能從此前的通用模式的大模型之爭,走向垂直細分市場的智能體競技。
通過對細分功能如繪畫、作曲、寫作、編程等功能性服務,進行深度定制。
對于阿里千問來說,只有真正能作用于B端或C端,且顯著有效,才有市場價值。
或者說,此前融入阿里生態(tài),是阿里為用戶直接制作了智能體,即過去的AI競爭是大模型的通用功能競爭。
當下的AI賽點是用大模型打磨出針對化服務的智能體。
此次千問推理模型,則是為智能體提供更好的智力支持,就看這個支持到底能讓智商有多大程度提高,則市場就會有多大的拓展空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.